- 博客(6)
- 资源 (4)
- 收藏
- 关注
原创 word分词器、ansj分词器、IKanalyzer分词器、mmseg4j分词器、jcseg分词器对比
因项目需要,对目前比较流行的几个分词器进行了对比,ansj_seg是最美好的一个分词器,智能、强悍,对索引和最大颗粒分割都照顾得很到位,词库的树形读取也堪称经典;如果搜索只追求绝对准确度不考虑搜索结果最大化,jcseg效果还是很好的;如果只做站内搜索,不是海量互联网搜索引擎,可以考虑使用IKanalyzer,鼎鼎大名的知乎网用的也是IKanalyzer分词器;如果做推荐做分类可能会使用jcseg,毕
2016-06-29 18:07:59 8540
原创 R语言tm包中的TermDocumentMatrix函数生成中文词语矩阵含有\n
问题产生原因是新版本R的scan函数读取utf8格式数据有时会添加\n,解决办法是在执行TermDocumentMatrix前,调用Sys.setlocale(locale=”English”),之后再设定回去,Sys.setlocale(locale=”Chinese (Simplified)_People’s Republic of China.936”),local设置通过函数sessionI
2016-06-27 16:39:47 6782
转载 R语言中的并行计算
众所周知,在大数据时代R语言有两个弱项,其中一个就是只能使用单线程计算。但是R在2.14版本之后,R就内置了parallel包,强化了R的并行计算能力。
2016-06-12 15:06:35 5118
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人