3.内幕交易识别模型的构建-机器学习

最新推荐文章于 2025-03-24 23:59:10 发布

置顶

希尔芬酱

最新推荐文章于 2025-03-24 23:59:10 发布

阅读量1.1k

点赞数 3

分类专栏： Python 文章标签：机器学习内幕交易识别模型二分类

本文链接：https://blog.csdn.net/qq_41822173/article/details/82354571

版权

本文介绍了基于文本数据挖掘的内幕交易识别模型构建过程，重点是利用机器学习进行二分类，最高准确率为84%。文章讨论了如何输出新闻情绪概率值，选取评价指标，以及构建识别模型的方法。此外，还提供了深度学习的初步尝试和相关资源链接，包括ROC曲线的绘制和决策树的可视化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本科毕业论文项目：《基于文本数据挖掘技术的内幕交易识别模型》的相关环节代码目录如下，已经全部更新，欢迎品尝：

1.获取财经新闻文本-Python3爬虫
 2.新闻情绪的量化-文本信息处理
 3.内幕交易识别模型的构建-机器学习

——————————-分割线——————————

这是本科毕业论文项目的最后一篇，关于内幕交易识别模型的构建。

在之前的步骤中，已经将文本信息处理完毕并且通过几个常用的机器学习分类模型将其进行了分类。

其中，分类准确率最高的是SVC分类器，其准确率约为84%.

# 值得一提的是，由于仅仅只是最简单的二分类，因此，这个准确率不算太高，通过包括但不限于加大训练集的量并且进行适当的调参等行为，足以使得其准确率进一步提升。读者有兴趣可以自行尝试，本文不做探讨。

那么接下来，我们的目标就很明确了：

一、输出新闻情绪（概率值）

二、选取其他恰当的评价指标

三、构建识别模型

四、深度学习尝试

如何输出新闻情绪（概率值）？

可以直接用如下代码输出预测的概率结果：

# Windows7测试，请随个人情况变更路径
# 别忘了import
file=open("C:/Users/Administrator/Desktop/SVC_predict.csv")
baifenbi=clf.predict_proba(test_set.tdm)
writer=csv.writer(file)
writer.writerows(baifenbi)
print('OJBK')

当然了，

最低0.47元/天解锁文章