NLP
cchangcs
Make something different!
毕业于武汉大学软件工程专业,现就职于某厂。
展开
-
jieba分词器学习
转载自:好玩的分词——python jieba分词模块的基本用法学习记录所用,如有侵权,一定删除。结巴分词分为三种模式:精确模式(默认)、全模式和搜索引擎模式。精确模式:import jiebas = '武汉大学是一所还不错的大学'result = jieba.cut(s)print(','.join(result))输出:武汉大学,是,一所,还,不错,的,大学...转载 2018-09-16 15:48:29 · 634 阅读 · 0 评论 -
NLTK学习(二)
转载自:NLTK学习之二:建构词性标注器学习所用,如有侵权,立即删除。词性标注,或POS(Part Of Speech),是一种分析句子成分的方法,通过它来识别每个词的词性。下面简要列举POS的tagset含意,详细可看nltk.help.brown_tagset()标记 词性 示例 ADJ 形容词 new, good, high, special, big...转载 2018-09-17 10:32:06 · 694 阅读 · 0 评论 -
NLTK学习(三)
本篇博客转自:NLTK学习之三:文本分类与构建基于分类的词性标注器学习记录所用,如有侵权,立即删除。一、有监督的分类1、分类分类时为给定输入选择正确的类标签的任务。比如判断一封Email是否是垃圾邮件,确定一篇新闻的主题。如果分类的时候需要人工标注的标签进行训练,则称为有监督的分类。分类器需要决定选择什么样的特征,并对特征进行编码。2、NLTK分类器在NLTK中提供...转载 2018-09-23 11:45:27 · 1233 阅读 · 0 评论