词向量本质是基于概率统计预测模型,对一个词在上下文中分布情况的计算,它的出现在多大程度上会伴随其他词的结伴出现,它们的前后关系和从属关系是怎样的,用于识别近义词、关联词和联想词准确度还是不错的。
IDF逆向频率与TF-IDF值用于获取文章关键词,通俗的讲一个词在当前文章中出现的次数越多,同时在其他文章中出现的次数越少,则这个词是文章关键词的可能性就越大,原理简单实现简单,但语料库要够大够全,分词器要足够准确,效果好不好考验的全是内功。
余弦相似度用于计算两个向量集在二维或多维坐标系中的相似性,检验它们是否具备在同一象限内向相同方向延展的趋势,重合度越高认为相似性约大。
局部哈希在处理文本相似性方面极具优势,与传统哈希没有考虑数据特征的做法相比,局部哈希最大程度保留了数据的核心要素,将多维坐标系的象限属性保留进哈希值中,而且文本越大准确率越高,再经过抽取文章关键词排序处理后,对文章有序性的要求大大降低,改几个词调换下前后顺序删除几个修饰语就像蒙混过关,没门。
LDA主题模型属于无监督的机器学习,是一个三层贝叶斯概率模型,由词、题、档三层结构组成,如果只关心海量文档聚类,而不关注具体的分类类型的话,LDA完全胜任而且效果基本不会令人失望。
与无监督机器学习相对应的是有监督的机器学习,去年脸书开源了一款“快文”,涵盖了词向量和内容分类,速度快效果好那是相当的好用,github上有c++、Python和java三个版本的,c++是脸书原作,java又分java语言实现和jni调用两种方式,由于java是根据c++改写的,版本维护跟不上,所以训练的结果模型不能跨版本使用,但对于一般企业级应用足够了。