本科毕业论文项目:《基于文本数据挖掘技术的内幕交易识别模型》的相关环节代码目录如下,已经全部更新,欢迎品尝:
——————————-分割线——————————
这是本科毕业论文项目的最后一篇,关于内幕交易识别模型的构建。
在之前的步骤中,已经将文本信息处理完毕并且通过几个常用的机器学习分类模型将其进行了分类。
其中,分类准确率最高的是SVC分类器,其准确率约为84%.
# 值得一提的是,由于仅仅只是最简单的二分类,因此,这个准确率不算太高,通过包括但不限于加大训练集的量并且进行适当的调参等行为,足以使得其准确率进一步提升。读者有兴趣可以自行尝试,本文不做探讨。
那么接下来,我们的目标就很明确了:
一、输出新闻情绪(概率值)
二、选取其他恰当的评价指标
三、构建识别模型
四、深度学习尝试
如何输出新闻情绪(概率值)?
可以直接用如下代码输出预测的概率结果:
# Windows7测试,请随个人情况变更路径
# 别忘了import
file=open("C:/Users/Administrator/Desktop/SVC_predict.csv")
baifenbi=clf.predict_proba(test_set.tdm)
writer=csv.writer(file)
writer.writerows(baifenbi)
print('OJBK')
当然了,