机器学习--主题模型&检测劣质答案

本文探讨了机器学习中的主题模型,包括潜在狄利克雷分配及其在处理稀疏数据时的作用,以及如何选择主题个数。同时介绍了检测劣质答案的两种方法:基于KNN算法和逻辑回归的分类器,强调了特征工程和模型选择的重要性,以及在提高分类器性能时的偏差-方差折中策略。
摘要由CSDN通过智能技术生成

一、主题研究

1、潜在狄利克雷分配

sklearn 不支持潜在狄利克雷分配,可以使用python中的genism包

2、稀疏性

当你有一个很大的矩阵或者向量的时候,基本上大多数的值都是0,因此,在任何时候,只有一小部分数据时相关的。

3、选择主题个数

主题模型通常是一个面向目标的终端服务,在这种情况下,你具体选择了哪些参数并不总是很重要,不同的主题数或者参数值会得到效果几乎相同的系统。

主题模型允许每个文档出现在多个分组中,比简单聚类更灵活。这些技术还可以用于图像,在绝大多数现代计算机视觉研究中,主题模型都是非常重要的。

这部分属于机器学习算法研究最前沿。

二、检测劣质答案

方法A

1、KNN算法

from sklearn import neighbors

knn=neighbors.KNeighborsClassifier(n_neighbors=2)

2、 特征工程(查看答案中的超链接数,用它代表答案的质量,越多越好--工具库(beautifulsoup)

3、训练分类器

4、评估分类器的性能

from sklearn.cross_validation import KFold
scores=[]
cv = KFold(n=len(X), n_folds=10, indices=True)
for train,test in cv:
	X_train,y_train=X[train],Y[train]
	X_test,y_test=X[test],Y[test]
	clf=neighbors.KNeighborsClassi
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值