一、文本分类
1、什么是文本分类?
文本分类,就是在预定义的分类体系下,根据文本的特征(内容或属性),将给定文本与一个或多个类别相关联的过程。
2、文本分类的具体步骤?
(1)构建分类类别体系
(2)获取带有类别标签的文本
(3)文本的特征选择及权重计算
(4)分类器的选择与训练
(5)文本的分类应用
3、类别体系
一般的文本分类基于文本内容,将文本自动划分为政治、经济、军事、体育等等类别。按目前互联网网页内容分类,还可以覆盖更多类别,比如旅游资讯、游戏、人物访谈、音乐、影视、软件、文学、健康、美食、财经、教育、广告、犯罪、自然灾害等,每一个分类还可以拓展子分类,具体情况还需要以实际项目需求为准。
对应每一个类别,都可以训练出对应的词特征文件。对应到类别的细分或者合并,只需要简单的将词特征文件按需要进行分拆或者合并,具有比较好的扩展性。
4、文本获取
互联网信息资讯非常庞大,除了各大厂商自身拥有的海量数据,还可以基于爬虫技术进行数据获取,这里有一个简单的例子:京东商城评论数据获取
但实际上互联网上存在非常多没有标注的数据,这时候可以考虑无监督或者弱监督的方法,不过效果相比监督方法较差。这时候可以选择人工进行标注,但这部分工作异常耗费人力。