NLP
_Yucen
这个作者很懒,什么都没留下…
展开
-
NLP&Python笔记——nltk模块基础操作
nltk是一款常用的基于python的NLP工具包,本文介绍了nlkt的安装导入以及一些基础的函数操作。1. 安装(1)安装nltk库: pip install nlkt(2)下载nltk库中的book文件:import nltknltk.download()运行--> 弹出下载界面 --> 选择book--> 设置好路径--> Download...原创 2018-07-18 15:19:05 · 1113 阅读 · 0 评论 -
NLP&Python笔记——列表/字符串基础操作与FreqDist类
一. 列表&字符串1. 列表 list [ ]列表是python中使用最频繁的数据类型。列表中元素的类型可以不相同,它支持数字,字符串甚至可以包含列表。 方法 描述 list.append(x) 把一个元素添加到列表的结尾,相当于 a[len(a):] = [x]。 list.extend...原创 2018-07-18 21:14:43 · 1129 阅读 · 0 评论 -
NLP&Python笔记——WordNet
WordNet是一种面向语义的英语词典,由Princeton大学的心理学家、语言学家和计算机工程师联合设计。它不是光把单词以字母顺序排列,而且按照单词的意义组成一个“单词的网络”。NLTK库中包含了英语WordNet,里面共有155287个词以及117659个同义词集合。常用操作如下:1. 加载wordnetfrom nltk.corpus import wordnet as wn...原创 2018-07-19 21:34:11 · 809 阅读 · 0 评论 -
NLP&Python笔记——语料库
什么是语料库?文本语料库是一个大型结构化文本的集合。NLTK包含了许多语料库:(1)古滕堡语料库 (2)网络和聊天文本(3)布朗语料库(4)路透社语料库(5)就职演讲语料库(6)标注文本语料库 词汇列表语料库(1)词汇列表:nltk.corpus.words.words()词汇语料库是Unix 中的/usr/dict/words 文件,被一些拼写检查程序使用。下面这...原创 2018-07-19 21:56:15 · 4370 阅读 · 0 评论 -
Python学习笔记——jieba “结巴”中文分词
jieba 是一款号称最好用的Python中文分词组件,分词效果非常棒。支持三种分词模式,代码对 Python 2/3 均兼容,可以用于某些项目的数据预处理。官方GitHubhttps://github.com/fxsjy/jieba安装全自动安装: easy_install jieba 或者 pip install jieba / pip3 install jieba 半自动安...原创 2019-02-21 21:46:53 · 893 阅读 · 1 评论