NLP
文章平均质量分 66
青盏
这个作者很懒,什么都没留下…
展开
-
NLP Lemmatisation(词性还原) 和 Stemming(词干提取) NLTK pos_tag word_tokenize
词形还原(lemmatization),是把一个词汇还原为一般形式(能表达完整语义),方法较为复杂;而词干提取(stemming)是抽取词的词干或词根形式(不一定能够表达完整语义),方法较为简单。 Stemming(词干提取): 基于语言的规则。如英语中名词变复数形式规则。由于基于规则,可能出现规则外的情况。# Porter Stemmer基于Porter词干提取算法from nlt...原创 2018-03-03 14:57:57 · 24956 阅读 · 0 评论 -
词集模型 Set Of Words(SOW)和词袋模型 Bag Of Words(BOW)
SOW和BOW都是将所有文本中单词形成一个字典,然后根据字典来统计单词出现频数。不同的是: SOW是单个文本中单词出现在字典中,就将其置为1,而不管出现多少次。 BOW是单个文本中单词出现在字典中,就将其向量值加1,出现多少次就加多少次。 注意SOW和BOW都是基于词之间保持独立性,没有关联为前提。这使得其统计方便,但同时也丢失了文本间词之间关系的信息。现有Word Embedding在将单词原创 2018-03-04 14:25:24 · 2032 阅读 · 0 评论 -
一般文本挖掘流程
获取数据集1、开放数据集(NLTK提供了很多数据集) 2、网页抓取 3、登录,搜索日志数据预处理1、除去html等无用标签(lxml、html5lib),拼写纠错(pyenchant),大小写转换(正则匹配),除去标点符号(正则匹配),处理编码,除去长度过小word,除去停用词(NLTK Stopwords,停用词就是常用却没有具体意义的word,如to)等 2、分句(正则匹配、NLTK se原创 2018-03-04 13:29:13 · 1594 阅读 · 0 评论 -
文本挖掘流程示例
import numpy as npimport pandas as pdfrom contextlib import contextmanagerfrom sklearn.feature_extraction.text import TfidfVectorizerfrom scipy.sparse import hstackimport timeimport reimport ...转载 2018-03-12 14:07:56 · 1869 阅读 · 1 评论 -
NLP 自然语言处理 集束搜索beam search和贪心搜索greedy search
在数学之美中曾介绍维特比算法,其根据自然语言句子生成的特性,利用动态规划方法,找到生成的最大可能性句子。但其同样存在弊端,如如果字典的长度非常大的话,那么查找的状态将会非常多,影响效率。而在句子生成中还有些如下方法:贪心搜索(greedy search):贪心搜索最为简单,直接选择每个输出的最大概率,直到出现终结符或最大句子长度。集束搜索(beamsearch):集束搜索可以...原创 2018-10-11 15:07:36 · 22988 阅读 · 1 评论 -
数学之美:维特比和维特比算法
维特比算法,现代数字通信中使用最频繁的算法,也是很多自然语言处理中的解码算法。由维特比大牛创建,今天的CDMA 3G通信标准就是由维特比创建的高通公司制定的。厉害的不行。维特比算法是一种特殊的但应用最广的动态规划算法。利用动态规划可以解决任何一个图中的最短路径问题,而维特比算法则是针对一种特殊的图——篱笆网络的有向图的最短路径问题提出的。之所以重要,是因为凡是使用隐马尔可夫模型描述的问题都可以用它...原创 2018-09-25 11:11:29 · 11094 阅读 · 1 评论 -
word2vec 中的数学原理详解
来源 word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,...转载 2018-12-28 13:43:40 · 201 阅读 · 0 评论 -
Bert的发展
站在BERT肩膀上的NLP新秀们(PART I)站在BERT肩膀上的NLP新秀们(PART II)站在BERT肩膀上的NLP新秀们(PART III)吹一波师兄的MASS!!!转载 2019-06-18 11:40:22 · 606 阅读 · 0 评论