![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
nlp
midori_27
nlp
展开
-
jieba中文处理学习笔记(一)
1.基本分词函数与用法jieba.cut 方法接受三个输入参数:需要分词的字符串cut_all 参数用来控制是否采用全模式HMM 参数用来控制是否使用 HMM 模型jieba.cut_for_search 方法接受两个参数需要分词的字符串是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细2.添加用户自定义词典¶很多时候我们需要针对自己的场景进行分词,会有一些领域内的专有词...转载 2018-06-11 18:43:45 · 905 阅读 · 0 评论 -
Python自然语言处理-学习笔记(2)——获得文本语料和词汇资源
语料库基本语法 载入自己的语料库 PlaintextCorpusReadera 从文件系统载入 BracketParseCorpusReader 从本地硬盘载入写一段简短的程序,通过遍历前面所列出的与gutenberg文体标识符相应的fileid(文件标识符),然后统计每个文本:import nltkfrom nltk.corpus import gutenbe...原创 2018-07-26 00:13:05 · 1030 阅读 · 0 评论 -
Python自然语言处理-学习笔记(3) —— 处理原始文本、正则表达式学习
nltk常用函数学习import nltk 函数用法 解释 word_tokenize(raw) 分词,用于产生词汇和标点符号的链表 sent_tokenize(raw) 分词,用于产生句子的链表 text = Text(raw) 按字符分词,包括空格;或者将分好的词转换为nltk文本格式 raw.find(str) 、raw.r...原创 2018-07-29 22:07:47 · 880 阅读 · 0 评论 -
Python自然语言处理-学习笔记(1)——nltk入门常用函数
from nltk.book import * #首先导入包1. text.concordance(word) # 搜索word的上下文2. text.similar(word) #还有哪些词出现在相似的上下文中3. text.common_contexts([word1,word2…]) #搜索两个或以上word共用的上下文4. text.dis...原创 2018-07-22 23:00:22 · 1037 阅读 · 0 评论 -
Python自然语言处理-学习笔记(5) —— 标注词汇
用nltk做词性标注import nltk 函数用法 解释 pos_tag(text) 词性标注器,对分词后的文档做词性标注 tag.str2tuple(word+’/’+tag) 手动标注,返回(单词,标注) corpus.tagged_words() 语料库(brown)的单词标注接口,返回(单词,标注)列表 corpus.t...原创 2018-08-01 00:51:53 · 527 阅读 · 0 评论 -
Python自然语言处理-学习笔记(6) ——— 文本分类
分类器学习 规律总结: 1.以n、ch结尾的倾向于男性 2.以yn、h结尾的倾向于女性from nltk import * 函数名称 解释 gender_feature = {feature_name:feature_value}tarin_set = [({feature_name:feature_value},tag)]classifie...原创 2018-08-01 22:58:03 · 375 阅读 · 1 评论