机学走起第八式：返回

weixin_34194317

于 2017-09-22 15:44:00 发布

阅读量54

点赞数

文章标签： python 人工智能 java

原文链接：https://my.oschina.net/gonglibin/blog/1541881

版权

2019独角兽企业重金招聘Python工程师标准>>>

拳不离手曲不离口，机学系列拖拖拉拉一个多月接近尾声了，这原本就不是着急的事，慢工出细活才能憋大招。前七式陆续介绍了词向量、IDF逆向频率、TF-IDF、LDA主题模型、余弦相似度、局部哈希、海明距离，图文并茂附送精美代码，去哪找这么贴心的小棉袄？今儿个分享一下心得体会。

词向量本质是基于概率统计预测模型，对一个词在上下文中分布情况的计算，它的出现在多大程度上会伴随其他词的结伴出现，它们的前后关系和从属关系是怎样的，用于识别近义词、关联词和联想词准确度还是不错的。

IDF逆向频率与TF-IDF值用于获取文章关键词，通俗的讲一个词在当前文章中出现的次数越多，同时在其他文章中出现的次数越少，则这个词是文章关键词的可能性就越大，原理简单实现简单，但语料库要够大够全，分词器要足够准确，效果好不好考验的全是内功。

余弦相似度用于计算两个向量集在二维或多维坐标系中的相似性，检验它们是否具备在同一象限内向相同方向延展的趋势，重合度越高认为相似性约大。

局部哈希在处理文本相似性方面极具优势，与传统哈希没有考虑数据特征的做法相比，局部哈希最大程度保留了数据的核心要素，将多维坐标系的象限属性保留进哈希值中，而且文本越大准确率越高，再经过抽取文章关键词排序处理后，对文章有序性的要求大大降低，改几个词调换下前后顺序删除几个修饰语就像蒙混过关，没门。

LDA主题模型属于无监督的机器学习，是一个三层贝叶斯概率模型，由词、题、档三层结构组成，如果只关心海量文档聚类，而不关注具体的分类类型的话，LDA完全胜任而且效果基本不会令人失望。

与无监督机器学习相对应的是有监督的机器学习，去年脸书开源了一款“快文”，涵盖了词向量和内容分类，速度快效果好那是相当的好用，github上有c++、Python和java三个版本的，c++是脸书原作，java又分java语言实现和jni调用两种方式，由于java是根据c++改写的，版本维护跟不上，所以训练的结果模型不能跨版本使用，但对于一般企业级应用足够了。

预告：《机学走起第九式：着陆》之大结局！

转载于:https://my.oschina.net/gonglibin/blog/1541881

weixin_34194317

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机学走起第八式：返回

2019独角兽企业重金招聘Python工程师标准>>> ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。