情感极性:关于中文情感分类的知识

本文介绍了文本分类的基本概念和步骤,包括类别体系构建、文本获取、特征选择、权重计算和分类器选择。接着,详细讨论了情感分类,它是对带有情感色彩的文本进行积极、中性、消极分类的过程,主要方法包括基于词典和机器学习。文章提供了相关参考文献和资源链接。
摘要由CSDN通过智能技术生成

一、文本分类

1、什么是文本分类?

文本分类,就是在预定义的分类体系下,根据文本的特征(内容或属性),将给定文本与一个或多个类别相关联的过程。

2、文本分类的具体步骤?

(1)构建分类类别体系

(2)获取带有类别标签的文本

(3)文本的特征选择及权重计算

(4)分类器的选择与训练

(5)文本的分类应用

3、类别体系

一般的文本分类基于文本内容,将文本自动划分为政治、经济、军事、体育等等类别。按目前互联网网页内容分类,还可以覆盖更多类别,比如旅游资讯、游戏、人物访谈、音乐、影视、软件、文学、健康、美食、财经、教育、广告、犯罪、自然灾害等,每一个分类还可以拓展子分类,具体情况还需要以实际项目需求为准。

对应每一个类别,都可以训练出对应的词特征文件。对应到类别的细分或者合并,只需要简单的将词特征文件按需要进行分拆或者合并,具有比较好的扩展性。

4、文本获取

互联网信息资讯非常庞大,除了各大厂商自身拥有的海量数据,还可以基于爬虫技术进行数据获取,这里有一个简单的例子:京东商城评论数据获取

但实际上互联网上存在非常多没有标注的数据,这时候可以考虑无监督或者弱监督的方法,不过效果相比监督方法较差。这时候可以选择人工进行标注,但这部分工作异常耗费人力。

5、文本特征选择

(1)什么是
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值