数据挖掘 文本分类 知乎问题单分类(一):背景介绍和需求分析

数据挖掘 文本分类 知乎问题单分类(一):背景介绍和需求分析

背景介绍和需求分析

这学期选修了王晓茹老师的数据挖掘课程,老师让我们组队完成一个基于机器学习文本分类的项目。我打算用此系列博客来记录项目实践过程中的一些收获,问题,想法。希望以此来提升和巩固自己技术。

题目

我们要做的是对知乎问题进行分类。数据获取的主要思想是爬取知乎某些话题下的所有问题相关数据(标题,问题描述等),并将对应的话题作为标签进行存储。之后就是对数据进行预处理,模型训练和模型预测。

实验要求

  1. 文本类别数:>=10类
  2. 训练集文档数:>=500000篇;每类平均50000篇。
  3. 测试集文档数:>=500000篇;每类平均50000篇。
  4. 分组完成实验,组员数量<=3,个人实现可以获得实验加分。
  5. 分数基于准确度
  6. 测试集远大于训练集数目可以加分

实验内容

  1. 语料库的构建,主要包括利用爬虫收集Web文档等;
  2. 语料库的数据预处理,包括文档建模,如去噪,分词,建立数据字典,使用词袋模型或主题模型表达文档等;注:使用主题模型,如LDA可以获得实验加分;
  3. 选择分类算法(朴素贝叶斯(必做)、SVM/其他等),训练文本分类器,理解所选的分类算法的建模原理、实现过程和相关参数的含义;注使用自己编写的朴素贝叶斯算法加分
  4. 对测试集的文本进行分类
  5. 对测试集的分类结果利用正确率和召回率进行分析评价:计算每类正确率、召回率,计算总体正确率和召回率,以及F-score。注使用混淆矩阵加分。

具体实现

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值