3.内幕交易识别模型的构建-机器学习

本文介绍了基于文本数据挖掘的内幕交易识别模型构建过程,重点是利用机器学习进行二分类,最高准确率为84%。文章讨论了如何输出新闻情绪概率值,选取评价指标,以及构建识别模型的方法。此外,还提供了深度学习的初步尝试和相关资源链接,包括ROC曲线的绘制和决策树的可视化。
摘要由CSDN通过智能技术生成

本科毕业论文项目:《基于文本数据挖掘技术的内幕交易识别模型》的相关环节代码目录如下,已经全部更新,欢迎品尝:

1.获取财经新闻文本-Python3爬虫
2.新闻情绪的量化-文本信息处理
3.内幕交易识别模型的构建-机器学习

——————————-分割线——————————

这是本科毕业论文项目的最后一篇,关于内幕交易识别模型的构建。

在之前的步骤中,已经将文本信息处理完毕并且通过几个常用的机器学习分类模型将其进行了分类。

其中,分类准确率最高的是SVC分类器,其准确率约为84%.

# 值得一提的是,由于仅仅只是最简单的二分类,因此,这个准确率不算太高,通过包括但不限于加大训练集的量并且进行适当的调参等行为,足以使得其准确率进一步提升。读者有兴趣可以自行尝试,本文不做探讨。

那么接下来,我们的目标就很明确了:

一、输出新闻情绪(概率值)

二、选取其他恰当的评价指标

三、构建识别模型

四、深度学习尝试

如何输出新闻情绪(概率值)?

可以直接用如下代码输出预测的概率结果:

# Windows7测试,请随个人情况变更路径
# 别忘了import
file=open("C:/Users/Administrator/Desktop/SVC_predict.csv")
baifenbi=clf.predict_proba(test_set.tdm)
writer=csv.writer(file)
writer.writerows(baifenbi)
print('OJBK')

当然了,

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值