自然语言处理
文章平均质量分 52
小猿Joanna
这个作者很懒,什么都没留下…
展开
-
《Natural Language Processing》斯坦福视频学习笔记——1.introduction
目前正在学习斯坦福大学的教学视频《Natural Language Processing》,记录下学习过程中的点滴,主要目的是为自己复习之用。本篇是引言部分,主要记录了NLP的现状以及其中的关键技术。已解决:spam detection,POS tagging,Name Entity Recognition(NER)在发展:Sentiment Analysis,Coreference原创 2016-01-17 14:34:26 · 1021 阅读 · 0 评论 -
《Natural Language Processing》斯坦福视频学习笔记——2.text processing
本篇涉及到的文本处理,主要包含以下内容:LemmatizationStemmingPorter Stemming Algorithm判断一个单词是否是句尾单词判断句尾单词的扩展条件具体的笔记内容如下:Lemmatization:使单词、句子还原Stemming:使有相同词根的词还原Porter Stemming Algorithm:词根还原算法,可以实现对英文单词进行还原英原创 2016-01-17 15:07:03 · 743 阅读 · 0 评论 -
《Natural Language Processing》斯坦福视频学习笔记——3.编辑距离
本篇介绍Leventice distance以及它的变种,主要包括:Leventice distance及其复杂度基于权重的编辑距离Needleman-Wunsch算法改进的算法Smith-Waterman算法Smith-Waterman与 Needleman-Wunsch对比具体内容如下:Leventice distance:代价(cost):删除-1,插入-原创 2016-01-17 16:07:15 · 691 阅读 · 0 评论 -
NLTK学习笔记——开篇
本人试过阅读书籍并在书上做笔记,奈何脑容量不足,书上的笔记也是杂乱无章,发现读过之处就好像没读。于是决定开始写NLTK系列的读书笔记。本学习笔记主要用于个人备忘之用,会有诸多内容摘自其他网页或文章,本人会尽量写明出处,如有雷同,还请谅解。本系列的NLTK学习笔记会尽量根据官方文档所标注的12个模块来记录,顺序不完全按照图示顺序,会根据自身的学习情况来定。原创 2016-03-03 20:13:04 · 482 阅读 · 0 评论 -
NLTK学习笔记——Classify模块(1)
前言:在NLTK中讲分类和标注的是第5、6两章,这里把两个章节整合了一下。本文主要是知识点的笔记,在《NLTK学习笔记——分类和标注(2)》中进行实战的介绍。str2tuple()从表示一个已标注的标识符的标准字符串创建一个这样的特殊元组 print wordlist.tabulate();按词频降序输出所有的词,如:有监督的分类过程官方例子特征:最后一个字母;特征可能值:原创 2016-03-03 20:16:01 · 1211 阅读 · 0 评论 -
NLTK学习笔记——Classify模块(2)
注:本文为实战过程作铺垫,因为参考原文是英文的,每看一遍都要琢磨一遍单词和语法,因此总结一下原文的过程,以备忘之用。本文主要介绍原文中利用NLTK进行twitter语句分类的过程,在下一节就记录本人的实战过程。参考:http://www.cnblogs.com/wentingtu/archive/2012/04/07/2436583.html首先与NLTK的例子(即通过name判断gend原创 2016-03-03 20:19:23 · 2758 阅读 · 0 评论 -
NLTK学习笔记——Classify模块(3)
本节介绍我的分类实战过程。简要记一下题目:应聘者简历上的职位信息常常繁杂且无规律,而一间公司的职位数量是一定的,于是本实战任务就是将简历上的职位进行分类。注:原文是英文的分类实例,而我要做的是中文分类,因此首先要引入结巴分词器对中文分词后方可继续处理。简历职位(25679条)与公司职位数据(32条)分别为:下面参照《NLTK学习笔记——Classify模块(2)》的原创 2016-03-03 20:20:49 · 2136 阅读 · 1 评论 -
NLTK学习笔记——信息抽取(1)
信息抽取的内容在《Natural Language Processing》第7章,对于文本的信息抽取,命名实体及其关系的识别是至关重要要的,信息抽取分为以下几个步骤: 1. 文本切分,将string类型的文本划分为list类型的句子 2. 句子切分,将每个list类型的句子划分成由单词或chunk组成的list 3. 词性标注,生成由一个list,其组成内容是多个形如(word,labl原创 2016-03-03 20:37:20 · 8218 阅读 · 0 评论 -
机器学习之shuffle
在做机器学习的任务时,需要在运行模型之前将特征转化成词id再转化成模型可识别的二进制文件形式,其中转化成的词id文件最好进行shuffle,打乱各行数据,这样参数能不易陷入局部最优,模型能够更容易达到收敛。原创 2016-12-21 12:59:35 · 2926 阅读 · 0 评论