![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
nltk
文章平均质量分 55
qq_41864652
这个作者很懒,什么都没留下…
展开
-
nltk:python自然语言处理一
环境: 1.安装nltk:pip install nltk 注:windows如果提示需要安装依赖包msgpack pip install msgpack 2.nltk_data的下载 交互模式: import nltk nltk.download() 【windows:nltk.download_shell()】 输入:d 进入下载器 输入:all 开始下...原创 2018-08-07 22:08:04 · 869 阅读 · 0 评论 -
nltk:python自然语言处理二
前面的一些分词工具都是写好的的规则 如果我们想按照自己的规则进行分词 可以使用正则分词器 1.RegexpTokenizer类 from nltk.tokenize import RegexpTokenizer text = " I won't just survive, Oh, you will see me thrive. Can't write my story,I'm beyon...原创 2018-08-08 13:09:39 · 1211 阅读 · 0 评论 -
nltk:python自然语言处理三 标准化
文本的标注化处理主要涉及清楚标点符号、统一大小写、数字的处理、扩展缩略词等文本的规范化操作 1.清除标点 import re import string from nltk import word_tokenize text = """ I Love there things in this world. Sun, Moon and You. Sun for morning, Moon...翻译 2018-08-08 15:33:45 · 1721 阅读 · 0 评论 -
nltk:python自然语言处理四 相似性度量
nltk中的metrics模块中提供了各种评估或相似性度量的方法: 1.通过计算编辑距离执行相似性度量 # 编辑距离:为了使两个字符串形同 所需插入、替换或删除的字符数量 如:"text"到"test"的编辑距离为1,"good"到"looking"的编剧距离为5 from nltk.metrics import edit_distance print edit_distance("g...翻译 2018-08-28 21:27:42 · 1599 阅读 · 0 评论