- 博客(2)
- 资源 (5)
- 收藏
- 关注
原创 MOne︱基于词包的无监督多主题得分 练习题
MOne基于词包的无监督多主题得分 1 开源的今日头条 又开源了一个某机构整理的今日头条数据,可见:今日头条中文新闻文本(多层)分类数据集 本数据集有1000+分类,2914000条数据,虽然没有放开正文,但是也是非常好的词包收集源,于是笔者花了很久整理一版本。今日头条的数据样式为: 以|,|分割的各字段,从前往后分别是 新闻ID,分类代码,新闻字符串(仅含标题),新闻关键词,新闻labe...
2018-06-25 21:52:47 826
原创 练习题︱基于今日头条开源数据(二)——两款Apriori算法实践
Apriori算法是通过限制候选产生发现频繁项集。总的来说,Apriori算法其实效率并不高,大规模数据计算的时候,需要考虑性能问题。 code + data可见:mattzheng/AprioriDemo 盗图盗图: 在R语言里面有非常好的package,可见我之前的博客: R语言实现关联规则与推荐算法(学习笔记) 该packages能够实现以下一些可视化: ...
2018-06-07 16:23:26 1479
Rstudio Server + Docker + tensorflowR的dockerfile文件
2018-09-28
word2vec自编译函数(By Jian Li,2014-09-21)
2016-05-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人