文本情绪分析学习篇(四)
最近没有怎么看论文,看完了一个文档Chinese nlp,在GitHub上下载的。文档内容写得很清楚。
文档下载:link
下文的图片来源文档截图。
一、自然语言处理
1、分析对象和内容
词汇:中文分词、词性标注、命名实体识别(人名地名识别)、新词发现语义表示、语义关系
语法分析:句子结构、语义归一化、省略、归一化、情感分析、文本分类、语义表示、文本主题、文本分类/聚合、
内容生成:规则匹配、机器翻译、知识推理
二、研究过程
1、获取语料
已有语料、抓取语料
国内开放的语料有搜狗语料、人民日报语料(我看了一下人民日报语料一直在更新,最近更新的也就几个月前)
2、预处理
数据拿来第一步就是预处理,就是将数据处理成我可以用的样子,一般会经过数据清洗、分词、词性标注、去停用词(并不都需要)这是部分来完成数据预处理工作。比较好的是我使用的是TensorFlow的环境,这些步骤都有封装好的库,自己设置好参数直接调用就可以了。
数据清理:就是将你要用的数据留下,清理掉不需要的数据
分