中文语言的文本分类技术和流程:‘
- 预处理:去除文本的噪声信息,例如HTML标签、文本格式转换、检测句子边界等
- 中文分词:使用中文分词器为文本分词,并去除停用词
- 构建词向量空间:统计文本词频,生成文本的词向量空间
- 权重策略——TF-IDF方法:使用TF-IDF发现特征词,并抽取为反映文档主题的特征
- 分类器:使用算法训练分类器
- 评价分类结果:分类器的测试结果分析
文本预处理
1.选择处理的文本的范围
对于分类或聚类任务,往往将整个文档作为处理单位;对于情感分析、文档自动文摘或信息检索,段落或章节可能更合适
2.建立分类文本语料库
目前比较好的中文分类语料库有复旦大学谭松波中文文本分类语料库和搜狗新闻分类语料库
训练集语料(分好类)&测试集语料(待分类)
3.文本格式转换
转换为纯文本格式
去除无用信息(如HTML标签)
Python例子:使用lxml库去除HTML标签(C语言编写的,比使用re正则库的标签去除方式性能高很多)
(先sudo pip install lxml)
# -*- coding: utf-8 -*-
from lxml import etree,html
# htm文件路径,以及读取文件
path = "1.htm"
content = open(path,"rb").read()
page = html.document_fromstring(content) # 解析文件
text = page.text_content() # 去除所有标签
print text # 输出去除标签后解析结果
4.检测句子边界:标记句子的结束
中文文本通常就是寻找。?!等标点符号作为断句的依据
中文分词介绍
英