NLP
nobody~
这个作者很懒,什么都没留下…
展开
-
word2vec中单词向词向量的转换过程详解
前言:针对word2vec是如何得到词向量的?这篇文章肯定能解决你的疑惑。该篇文章主要参考知乎某大神的回答,个人在此基础上做了一个总结。word2vec是如何得到词向量的?这个问题比较大。从头开始讲的话,首先有了文本语料库,你需要对语料库进行预处理,这个处理流程与你的语料库种类以及个人目的有关,比如,如果是英文语料库你可能需要大小写转换检查拼写错误等操作,如果是中文日语语料库你需要增加分词...原创 2018-05-07 16:41:00 · 18975 阅读 · 2 评论 -
AIML知识库数据匹配原理解析
前言:关于AIML库这里就不介绍了,详细的介绍及简单的使用请参考我的上一篇博客:https://blog.csdn.net/qq_16633405/article/details/80228697 这里主要介绍下AIML知识库内部数据匹配的机制,以便我们能更好的使用AIML库。废话少说,直接进入正题了。1、AIML系统工作流程AIML系统工作流程如图1所示。 第一步:系统初始化...原创 2018-05-28 11:11:31 · 5417 阅读 · 11 评论 -
Word2Vec&Doc2Vec总结
转自:http://www.cnblogs.com/maybe2030/p/5427148.html1、词向量自然语言理解的问题要转化为机器学习的问题,第一步肯定是要找一种方法把这些符号数学化。 NLP 中最直观,也是到目前为止最常用的词表示方法是 One-hot Representation,这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为 0,只...转载 2018-05-28 11:45:00 · 13777 阅读 · 0 评论 -
LSI/LSA算法原理与实践Demo
1、使用场景文本挖掘中,主题模型。聚类算法关注于从样本特征的相似度方面将数据聚类。比如通过数据样本之间的欧式距离,曼哈顿距离的大小聚类等。而主题模型,顾名思义,就是对文字中隐含主题的一种建模方法。比如从“人民的名义”和“达康书记”这两个词我们很容易发现对应的文本有很大的主题相关度,但是如果通过词特征来聚类的话则很难找出,因为聚类方法不能考虑到到隐含的主题这一块。 那么如何找到隐含的主题呢?这...原创 2018-06-05 10:38:25 · 20609 阅读 · 7 评论 -
FastText原理总结
1、应用场景fastText是一种Facebook AI Research在16年开源的一个文本分类器。 其特点就是fast。相对于其它文本分类模型,如SVM,Logistic Regression和neural network等模型,fastText在保持分类效果的同时,大大缩短了训练时间。2、优缺点适合大型数据+高效的训练速度:能够训练模型“在使用标准多核CPU的情况下10分...原创 2018-06-05 11:03:40 · 33108 阅读 · 3 评论 -
Doc2Bow简介与实践Demo
Doc2Bow是Gensim中封装的一个方法,主要用于实现Bow模型,下面主要介绍下Bow模型。1、BoW模型原理Bag-of-words model (BoW model) 最早出现在自然语言处理(Natural Language Processing)和信息检索(Information Retrieval)领域.。该模型忽略掉文本的语法和语序等要素,将其仅仅看作是若干个词汇的集合,...原创 2018-06-05 11:21:55 · 21642 阅读 · 3 评论 -
Doc2Vec实践
前言:最近由于要开发一款项目,就想用doc2vec来实现其中的推荐功能,根据用户输入的问题利用doc2vec返回相似的问题。 以下是整个Demo的实现过程,具体的详细代码请参考我的Git:https://github.com/645187919/doc2vecDemo对于doc2vec来说其实内部原理也是先拿到尽可能多的数据生成一个model然后根据输入再在model中进行匹配,得到对应...原创 2018-05-30 11:35:46 · 5554 阅读 · 10 评论