2.2 文本分类项目

最新推荐文章于 2024-06-06 23:03:58 发布

cje

最新推荐文章于 2024-06-06 23:03:58 发布

阅读量2.9k

点赞数

分类专栏：《机器学习：算法理论与编程实践》阅读笔记文章标签：机器学习

本文链接：https://blog.csdn.net/u011779724/article/details/72623740

版权

中文语言的文本分类技术和流程：‘

预处理：去除文本的噪声信息，例如HTML标签、文本格式转换、检测句子边界等
中文分词：使用中文分词器为文本分词，并去除停用词
构建词向量空间：统计文本词频，生成文本的词向量空间
权重策略——TF-IDF方法：使用TF-IDF发现特征词，并抽取为反映文档主题的特征
分类器：使用算法训练分类器
评价分类结果：分类器的测试结果分析

文本预处理

1.选择处理的文本的范围

对于分类或聚类任务，往往将整个文档作为处理单位；对于情感分析、文档自动文摘或信息检索，段落或章节可能更合适

2.建立分类文本语料库

目前比较好的中文分类语料库有复旦大学谭松波中文文本分类语料库和搜狗新闻分类语料库

训练集语料（分好类）&测试集语料（待分类）

3.文本格式转换

转换为纯文本格式

去除无用信息（如HTML标签）

Python例子：使用lxml库去除HTML标签（C语言编写的，比使用re正则库的标签去除方式性能高很多）

（先sudo pip install lxml）

# -*- coding: utf-8 -*-
 
from lxml import etree,html

# htm文件路径，以及读取文件
path = "1.htm"
content = open(path,"rb").read()
page = html.document_fromstring(content) # 解析文件
text = page.text_content() # 去除所有标签
print text     # 输出去除标签后解析结果

4.检测句子边界：标记句子的结束

中文文本通常就是寻找。？！等标点符号作为断句的依据

中文分词介绍

英

最低0.47元/天解锁文章

cje

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
2.2 文本分类项目

中文语言的文本分类技术和流程：‘预处理：去除文本的噪声信息，例如HTML标签、文本格式转换、检测句子边界等中文分词：使用中文分词器为文本分词，并去除停用词构建词向量空间：统计文本词频，生成文本的词向量空间权重策略——TF-IDF方法：使用TF-IDF发现特征词，并抽取为反映文档主题的特征分类器：使用算法训练分类器评价分类结果：分类器的测试结果分析文本预处理1.选择处理的文本
复制链接

扫一扫

专栏目录