一、主题研究
1、潜在狄利克雷分配
sklearn 不支持潜在狄利克雷分配,可以使用python中的genism包
2、稀疏性
当你有一个很大的矩阵或者向量的时候,基本上大多数的值都是0,因此,在任何时候,只有一小部分数据时相关的。
3、选择主题个数
主题模型通常是一个面向目标的终端服务,在这种情况下,你具体选择了哪些参数并不总是很重要,不同的主题数或者参数值会得到效果几乎相同的系统。
主题模型允许每个文档出现在多个分组中,比简单聚类更灵活。这些技术还可以用于图像,在绝大多数现代计算机视觉研究中,主题模型都是非常重要的。
这部分属于机器学习算法研究最前沿。
二、检测劣质答案
方法A
1、KNN算法
from sklearn import neighbors
knn=neighbors.KNeighborsClassifier(n_neighbors=2)
2、 特征工程(查看答案中的超链接数,用它代表答案的质量,越多越好--工具库(beautifulsoup)
3、训练分类器
4、评估分类器的性能
from sklearn.cross_validation import KFold
scores=[]
cv = KFold(n=len(X), n_folds=10, indices=True)
for train,test in cv:
X_train,y_train=X[train],Y[train]
X_test,y_test=X[test],Y[test]
clf=neighbors.KNeighborsClassi