NLP
文章平均质量分 72
chixujohnny
蚂蚁金服-高级算法工程师
展开
-
LDA主题词模型
最终确定去360做安全网关部分的自然语言处理环节,在此感谢360和马主管的赏识!未来2个月的学习内容应该跟NLP和C++密切相关。LDA主题词模型探析参考博主:http://www.tuicool.com/articles/E7RVFzU 内容再自行整理得来,侵权删。LDA是什么? LDA(Latent Dirichlet Allocation 文档原创 2016-06-07 17:55:28 · 12040 阅读 · 0 评论 -
TF-IDF
TF-IDF(term frequency–inverse document frequency)是一种基于统计方法的常用加权技术。它的目的是评估一个字词对一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比,但同时会随着它在语料库中出现的频率成反比下降。这种算法经常被用于自然语言处理和搜索领域。 词频(term frequency,T原创 2016-06-14 18:21:47 · 1501 阅读 · 0 评论 -
文本聚类教程
本人曾做机器学习方向,由于实习需要转做文本聚类、分类的工作,虽然大致相似,但仍是新手,过程和结果也仅供大神指教。本博包含了作者两周的专心研究调试及由数千行测试得到了300余行代码精华,如需转载,请注明出处。什么是文本聚类?文本聚类是将一个个文档由原有的自然语言文字信息转化成数学信息,以高维空间点的形式展现出来,通过计算那些点距离比较近来将那些点聚成一个簇,簇的中心叫做簇心。一个原创 2016-07-08 16:37:36 · 18612 阅读 · 28 评论