数据挖掘文本分类知乎问题单分类（一）：背景介绍和需求分析

最新推荐文章于 2025-04-29 15:54:53 发布

Miracle42

最新推荐文章于 2025-04-29 15:54:53 发布

阅读量1.2k

点赞数

分类专栏：数据挖掘文本分类文章标签：数据挖掘文本分类北邮爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/han_zhuang/article/details/103184283

版权

文本分类同时被 2 个专栏收录

5 篇文章

订阅专栏

2 篇文章

订阅专栏

数据挖掘文本分类知乎问题单分类（一）：背景介绍和需求分析

背景介绍和需求分析

背景介绍和需求分析

这学期选修了王晓茹老师的数据挖掘课程，老师让我们组队完成一个基于机器学习文本分类的项目。我打算用此系列博客来记录项目实践过程中的一些收获，问题，想法。希望以此来提升和巩固自己技术。

题目

我们要做的是对知乎问题进行分类。数据获取的主要思想是爬取知乎某些话题下的所有问题相关数据（标题，问题描述等），并将对应的话题作为标签进行存储。之后就是对数据进行预处理，模型训练和模型预测。

实验要求

文本类别数：>=10类
训练集文档数：>=500000篇；每类平均50000篇。
测试集文档数：>=500000篇；每类平均50000篇。
分组完成实验，组员数量<=3，个人实现可以获得实验加分。
分数基于准确度
测试集远大于训练集数目可以加分

实验内容

语料库的构建，主要包括利用爬虫收集Web文档等；
语料库的数据预处理，包括文档建模，如去噪，分词，建立数据字典，使用词袋模型或主题模型表达文档等；注：使用主题模型，如LDA可以获得实验加分；
选择分类算法（朴素贝叶斯（必做）、SVM/其他等），训练文本分类器，理解所选的分类算法的建模原理、实现过程和相关参数的含义；注使用自己编写的朴素贝叶斯算法加分
对测试集的文本进行分类
对测试集的分类结果利用正确率和召回率进行分析评价：计算每类正确率、召回率，计算总体正确率和召回率，以及F-score。注使用混淆矩阵加分。

具体实现

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。