2.2 文本分类项目

中文语言的文本分类技术和流程:‘
  • 预处理:去除文本的噪声信息,例如HTML标签、文本格式转换、检测句子边界等
  • 中文分词:使用中文分词器为文本分词,并去除停用词
  • 构建词向量空间:统计文本词频,生成文本的词向量空间
  • 权重策略——TF-IDF方法:使用TF-IDF发现特征词,并抽取为反映文档主题的特征
  • 分类器:使用算法训练分类器
  • 评价分类结果:分类器的测试结果分析

文本预处理
1.选择处理的文本的范围
对于分类或聚类任务,往往将整个文档作为处理单位;对于情感分析、文档自动文摘或信息检索,段落或章节可能更合适
2.建立分类文本语料库
目前比较好的中文分类语料库有复旦大学谭松波中文文本分类语料库和搜狗新闻分类语料库
训练集语料(分好类)&测试集语料(待分类)
3.文本格式转换
转换为纯文本格式
去除无用信息(如HTML标签)
Python例子:使用lxml库去除HTML标签(C语言编写的,比使用re正则库的标签去除方式性能高很多)
(先sudo pip install lxml)
# -*- coding: utf-8 -*-
 
from lxml import etree,html

# htm文件路径,以及读取文件
path = "1.htm"
content = open(path,"rb").read()
page = html.document_fromstring(content) # 解析文件
text = page.text_content() # 去除所有标签
print text     # 输出去除标签后解析结果
4.检测句子边界:标记句子的结束
中文文本通常就是寻找。?!等标点符号作为断句的依据

中文分词介绍
  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值