NLP
自然语言相关知识
十三吖
这个作者很懒,什么都没留下…
展开
-
基于内容相似度的推荐与TF-IDF算法
1 基于内容相似度的推荐注:为尊重大佬,博文第一部分来自:https://blog.csdn.net/qq_32690999/article/details/77434381 ,这篇文章一定要读一下,非常赞!1.1概念基于内容相似度的推荐就是把与你喜欢看的新闻内容相似新闻推荐给你。基于内容的推荐算法的主要优势在于无冷启动问题,只要用户产生了初始的历史数据,就可以开始进行推荐的计算。而且随着用...原创 2018-10-29 09:35:18 · 9773 阅读 · 0 评论 -
推荐系统之隐语义模型(LFM)及Python实现
核心思想隐语义模型LFM和LSI,LDA,Topic Model其实都属于隐含语义分析技术,是一类概念,他们在本质上是相通的,都是找出潜在的主题或分类。这些技术一开始都是在文本挖掘领域中提出来的,近些年它们也被不断应用到其他领域中,并得到了不错的应用效果。比如,在推荐系统中它能够基于用户的行为对item进行自动聚类,也就是把item划分到不同类别/主题,这些主题/类别可以理解为用户的兴趣。对于...原创 2018-10-27 22:24:15 · 7165 阅读 · 10 评论 -
NLP | gensim库 gensim for NLP
目录0 例子1 语料库和向量空间2 主题和转换3 相似性查询4 英语维基百科上的实验5 分布式计算0 Quick Example#import logging#logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)from gensim import...原创 2019-01-18 09:59:26 · 696 阅读 · 0 评论 -
NLP | Word2Vec之基于Negative Sampling的 CBOW 和 skip-gram 模型
前面介绍了基于Hierarchical Softmax的 skip-gram 和 CBOW 模型,虽然我们使用霍夫曼树代替传统的神经网络,可以提高模型训练的效率。但是如果我们的训练样本里的中心词www是一个很生僻的词,那么就得在霍夫曼树中辛苦的向下走很久了。能不能不用搞这么复杂的一颗霍夫曼树,将模型变的更加简单呢?Negative Sampling就是这么一种求解word2vec模型的方法,它摒...原创 2019-01-16 09:19:49 · 960 阅读 · 1 评论 -
NLP | Word2Vec之Huffman树与Huffman编码
转载 2019-01-15 15:16:43 · 1019 阅读 · 0 评论 -
NLP | Word2Vec之基于Hierarchical Softmax的 skip-gram 和 CBOW 模型
主要介绍Word2Vec中的Skip-Gram模型和CBOW模型。总结来说,skip-gram是用中心词预测周围词,预测的时候是一对word pair,等于对每一个中心词都有K个词作为output,对于一个词的预测有K次,所以能够更有效的从context中学习信息,但是总共预测K*V词。CBOW模型中input是context(周围词),而output是中心词。因此,skip gram的训练时间更...原创 2019-01-15 10:41:42 · 1348 阅读 · 0 评论 -
NLP | 词袋模型 Bag of words model
词袋模型是用于自然语言处理和信息检索(IR)的简化表示。 在这个模型中,一个文本(比如一个句子或文档)表示为它的词袋,不考虑语法,甚至语序,但保持多样性。词袋模型通常用于文档分类方法,其中每个单词的出现(频率)被用作训练分类器的特征。(1) John likes to watch movies. Mary likes movies too.(2) John also likes to wa...原创 2019-01-11 18:41:11 · 1220 阅读 · 0 评论 -
中文/英文文本挖掘预处理流程总结
中文与英文文本挖掘的特点第一,中文文本是没有像英文的单词空格那样隔开的,因此不能直接像英文一样可以直接用最简单的空格和标点符号完成分词。所以一般我们需要用分词算法来完成分词,在文本挖掘的分词原理中,我们已经讲到了中文的分词原理,这里就不多说。第二,中文的编码不是utf8,而是unicode。这样会导致在分词的时候,和英文相比,我们要处理编码的问题。1 中文文本挖掘预处理流程1.1 数据收集...原创 2019-01-07 14:53:26 · 1830 阅读 · 0 评论 -
文本挖掘预处理之向量化与Hash Trick
在文本挖掘的分词原理中,我们讲到了文本挖掘的预处理的关键一步:“分词”,而在做了分词后,如果我们是做文本分类聚类,则后面关键的特征预处理步骤有向量化或向量化的特例Hash Trick,本文我们就对向量化和特例Hash Trick预处理方法做一个总结。1. 词袋模型在讲向量化与Hash Trick之前,我们先说说词袋模型(Bag of Words,简称BoW)。词袋模型假设我们不考虑文本中词与词...转载 2019-01-07 11:19:49 · 365 阅读 · 0 评论 -
SVD分解——>潜在语义分析LSA(I)——>概率性潜在语义分析PLSA(I)
SVD分解正交矩阵:若一个方阵其行与列皆为正交的单位向量,则该矩阵为正交矩阵,且该矩阵的转置和其逆相等。两个向量正交的意思是两个向量的内积为 0。正定矩阵:如果对于所有的非零实系数向量 zzz,都有zTAz>0z^TAz>0zTAz>0,则称矩阵AAA是正定的。正定矩阵的行列式必然大于 0,所有特征值也必然 > 0。相对应的,半正原创 2019-01-06 20:37:14 · 3412 阅读 · 0 评论 -
LDA模型应用、问题、评估
LDA主题模型及python实现介绍了LDA模型的基本原理与Sklearn实现流程。1 应用聚类:主题是聚类中心,文章和多个类簇(主题)关联。聚类对整理和总结文章集合很有帮助。参看Blei教授和Lafferty教授对于Science杂志的文章生成的总结。点击一个主题,看到该主题下一系列文章。特征生成:LDA可以生成特征供其他机器学习算法使用。LDA为每一篇文章推断一个主题分布;K个主...原创 2019-01-06 09:45:43 · 3106 阅读 · 1 评论 -
LDA主题模型及python实现
LDA(Latent Dirichlet Allocation)中文翻译为:潜在狄利克雷分布。LDA主题模型是一种文档生成模型,是一种非监督机器学习技术。它认为一篇文档是有多个主题的,而每个主题又对应着不同的词。一篇文档的构造过程,首先是以一定的概率选择某个主题,然后再在这个主题下以一定的概率选出某一个词,这样就生成了这篇文档的第一个词。不断重复这个过程,就生成了整篇文章(当然这里假定词与词之间是...原创 2019-01-05 21:58:36 · 36983 阅读 · 6 评论