机学走起第八式:返回

    拳不离手曲不离口,机学系列拖拖拉拉一个多月接近尾声了,这原本就不是着急的事,慢工出细活才能憋大招。前七式陆续介绍了词向量、IDF逆向频率、TF-IDF、LDA主题模型、余弦相似度、局部哈希、海明距离,图文并茂附送精美代码,去哪找这么贴心的小棉袄?今儿个分享一下心得体会。

    词向量本质是基于概率统计预测模型,对一个词在上下文中分布情况的计算,它的出现在多大程度上会伴随其他词的结伴出现,它们的前后关系和从属关系是怎样的,用于识别近义词、关联词和联想词准确度还是不错的。

    IDF逆向频率与TF-IDF值用于获取文章关键词,通俗的讲一个词在当前文章中出现的次数越多,同时在其他文章中出现的次数越少,则这个词是文章关键词的可能性就越大,原理简单实现简单,但语料库要够大够全,分词器要足够准确,效果好不好考验的全是内功。

    余弦相似度用于计算两个向量集在二维或多维坐标系中的相似性,检验它们是否具备在同一象限内向相同方向延展的趋势,重合度越高认为相似性约大。

    局部哈希在处理文本相似性方面极具优势,与传统哈希没有考虑数据特征的做法相比,局部哈希最大程度保留了数据的核心要素,将多维坐标系的象限属性保留进哈希值中,而且文本越大准确率越高,再经过抽取文章关键词排序处理后,对文章有序性的要求大大降低,改几个词调换下前后顺序删除几个修饰语就像蒙混过关,没门。

    LDA主题模型属于无监督的机器学习,是一个三层贝叶斯概率模型,由词、题、档三层结构组成,如果只关心海量文档聚类,而不关注具体的分类类型的话,LDA完全胜任而且效果基本不会令人失望。

    与无监督机器学习相对应的是有监督的机器学习,去年脸书开源了一款“快文”,涵盖了词向量和内容分类,速度快效果好那是相当的好用,github上有c++、Python和java三个版本的,c++是脸书原作,java又分java语言实现和jni调用两种方式,由于java是根据c++改写的,版本维护跟不上,所以训练的结果模型不能跨版本使用,但对于一般企业级应用足够了。

预告:《机学走起第九式:着陆》之大结局!

 

转载于:https://my.oschina.net/gonglibin/blog/1541881

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值