python宏观研究_GitHub - TATlong/Research-report-Classification-system: 爬取东方财富的宏观研究的研报，基于LSTM进行情感分析，分类为正向...

喝前尧一尧

于 2021-02-10 08:06:48 发布

阅读量1k

点赞数

文章标签： python宏观研究

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_34043280/article/details/113978397

版权

该项目是一个爬取并分析东方财富宏观研究研报的系统，使用了selenium爬虫、word2vec训练、LSTM模型，对文本进行情感分析和分类。主要流程包括爬虫获取数据、文本处理、词向量训练、LSTM模型训练和新文本预测。运行系统需安装相关Python包，如selenium、PhantomJS、jieba、tensorflow和keras。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基于东方财富宏观研究的研报分类系统

东方财富宏观研究网址：http://data.eastmoney.com/report/hgyj.html

一、该系统是由以下几步组成：

(1)爬虫 (2)文本处理 (3)word2vec词向量训练 (4)Lstm模型训练 (5)基于模型的新文本预测

二、运行该系统需要安装的包

(1)爬虫中需要安装：selenium和PhantomJS，本人的安装环境是mac下的anaconda，安装过程可以参考：https://blog.csdn.net/lilong117194/article/details/83277075 (2)word2vec的训练过程，需要安装的包有jieba，这个包的安装很简单。 (3)lstm的训练过程，需要安装tensorflow和keras，mac下的安装也很简单

三、各个.py文件的说明

(1)reptile.py:爬虫文件下面是各个函数的说明

get_page_url(self,url,num)：模拟鼠标点击网页，获取指定页的网址。参数url：网页地址，num：指定的网页数，也即是第几页，如下所示在这里插入图片描述

download_report(self,text_link,re_sum_info)：下载指定网页的研报文本。

get_report_page(self,page_start,page_end)：以起始和终止页面数为爬取标准

get_report_date(self,start_date,end_date)：以起始和终止时期为爬取标准

(2)del_Ds_store.py：辅助文件，该文件的作用是删除m

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。