nltk
文章平均质量分 55
qq_41864652
这个作者很懒,什么都没留下…
展开
-
nltk:python自然语言处理一
环境:1.安装nltk:pip install nltk 注:windows如果提示需要安装依赖包msgpack pip install msgpack2.nltk_data的下载交互模式:import nltknltk.download() 【windows:nltk.download_shell()】输入:d 进入下载器输入:all 开始下...原创 2018-08-07 22:08:04 · 858 阅读 · 0 评论 -
nltk:python自然语言处理二
前面的一些分词工具都是写好的的规则如果我们想按照自己的规则进行分词 可以使用正则分词器1.RegexpTokenizer类from nltk.tokenize import RegexpTokenizertext = " I won't just survive, Oh, you will see me thrive. Can't write my story,I'm beyon...原创 2018-08-08 13:09:39 · 1206 阅读 · 0 评论 -
nltk:python自然语言处理三 标准化
文本的标注化处理主要涉及清楚标点符号、统一大小写、数字的处理、扩展缩略词等文本的规范化操作1.清除标点import reimport stringfrom nltk import word_tokenizetext = """I Love there things in this world. Sun, Moon and You. Sun for morning, Moon...翻译 2018-08-08 15:33:45 · 1704 阅读 · 0 评论 -
nltk:python自然语言处理四 相似性度量
nltk中的metrics模块中提供了各种评估或相似性度量的方法:1.通过计算编辑距离执行相似性度量# 编辑距离:为了使两个字符串形同 所需插入、替换或删除的字符数量如:"text"到"test"的编辑距离为1,"good"到"looking"的编剧距离为5from nltk.metrics import edit_distanceprint edit_distance("g...翻译 2018-08-28 21:27:42 · 1553 阅读 · 0 评论