自然语言处理
Dic0k
这个作者很懒,什么都没留下…
展开
-
Python 自然语言处理笔记(一)—— nltk包的使用
Python 自然语言处理笔记(一)—— nltk包的使用本文要点:文本预处理分词、提取词干去停用词标点符号过滤低频词过滤(n <= threshold)绘制离散图,查看指定单词(Elizabeth, Darcy, Wickham, Bingley, Jane)在文中的分布位置对前 20 个有意义的高频词,绘制频率分布图完整py代码与文本数据:Github仓库:https...原创 2019-03-14 00:00:03 · 1415 阅读 · 0 评论 -
Python NLTK 入门教程
Python 自然语言处理——NLTK 入门教程NLTK 入门(详细使用见官网:http://www.nltk.org/)一. 安装pip install nltk>>> import nltk>>> nltk.download()选择需要的包安装,建议默认路径下载,全部包安装大概需要 2G 内存测试安装是否成功>>> fr...原创 2019-03-14 00:34:11 · 5686 阅读 · 0 评论 -
Python 自然语言处理笔记(二)—— 中文分词
自然语言处理——中文分词数据集与代码都放在了GitHub仓库正向最大匹配算法正向最大匹配FMM算法思想假定词典中最长的单词长度为m,从左至右取待分词的前m个字符串作为匹配字段。查找字典,如果字典中存在和匹配字段相同的词语,则匹配成功,否则去掉匹配字段的最后一个字符重新匹配重复以上过程直到匹配全部完成要求:使用正向最大匹配算法,利用给定的数据:字典文件corpus.dict....原创 2019-03-20 23:46:16 · 839 阅读 · 0 评论 -
Python 自然语言处理笔记(三)—— 朴素贝叶斯分类,情感分析例子
第7节练习 朴素贝叶斯 情感分类题干We want to build a naïve bayes sentiment classifier using add -1 smoothing, as described in the lecture (not binary naïve bayes, regular naïve bayes). Here is our training corpus:...原创 2019-04-04 13:04:33 · 3068 阅读 · 0 评论 -
Python 自然语言处理笔记(四)——wordnet语料库的使用,判断是否存在共指指代
自然语言处理——wordnet语料库的使用,判断是否存在共指指代一. 使用nltk中的wordnet语料库1.找出以下单词的同义词集、查看同义词集中的所有单词、查看同义词的具体定义及例子:dog, apple, flyimport nltkfrom nltk.corpus import wordnet as wn# 获取一个同义词集的所有单词def get_lemma(synset_...原创 2019-04-13 11:38:39 · 1594 阅读 · 0 评论 -
Python 自然语言处理笔记(五)——信息检索系统,基于Lucene实现
信息检索系统——基于Lucene实现题目要求基于课程学习内容,实现简单的搜索引擎功能(界面可视化不做要求,可终端输出),要求实现以下基本功能:拼写检查(参考最小编辑距离原理)倒排索引使用TF/IDF或者VSM进行文档排序实现这里使用的是lucene-8.0.0,由于版本不同,网上很多博客的教程已经失效,具体的api参数或者调用要参考官网最新的手册,这里需要一定的搜索与查阅文档的能...原创 2019-04-28 15:34:10 · 4794 阅读 · 4 评论 -
Python 自然语言处理笔记(六)—— 基于seq-to-seq的自动问答,DeepQA
基于seq-to-seq的自动问答——DeepQA模型Github地址 : https://github.com/Conchylicultor/DeepQA一. 使用预训练模型Extract the zip file inside DeepQA/save/Copy the preprocessed dataset from save/model-pretrainedv2/dataset-...原创 2019-05-10 10:26:03 · 1150 阅读 · 0 评论