python宏观研究_GitHub - TATlong/Research-report-Classification-system: 爬取东方财富的宏观研究的研报,基于LSTM进行情感分析,分类为正向...

基于东方财富宏观研究的研报分类系统

东方财富宏观研究网址:http://data.eastmoney.com/report/hgyj.html

一、该系统是由以下几步组成:

(1)爬虫 (2)文本处理 (3)word2vec词向量训练 (4)Lstm模型训练 (5)基于模型的新文本预测

二、运行该系统需要安装的包

(1)爬虫中需要安装:selenium和PhantomJS,本人的安装环境是mac下的anaconda,安装过程可以参考:https://blog.csdn.net/lilong117194/article/details/83277075 (2)word2vec的训练过程,需要安装的包有jieba,这个包的安装很简单。 (3)lstm的训练过程,需要安装tensorflow和keras,mac下的安装也很简单

三、各个.py文件的说明

(1)reptile.py:爬虫文件 下面是各个函数的说明

get_page_url(self,url,num):模拟鼠标点击网页,获取指定页的网址。 参数url:网页地址,num:指定的网页数,也即是第几页,如下所示 在这里插入图片描述

download_report(self,text_link,re_sum_info):下载指定网页的研报文本。

get_report_page(self,page_start,page_end):以起始和终止页面数为爬取标准

get_report_date(self,start_date,end_date):以起始和终止时期为爬取标准

(2)del_Ds_store.py:辅助文件,该文件的作用是删除m

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值