基于东方财富宏观研究的研报分类系统
东方财富宏观研究网址:http://data.eastmoney.com/report/hgyj.html
一、该系统是由以下几步组成:
(1)爬虫 (2)文本处理 (3)word2vec词向量训练 (4)Lstm模型训练 (5)基于模型的新文本预测
二、运行该系统需要安装的包
(1)爬虫中需要安装:selenium和PhantomJS,本人的安装环境是mac下的anaconda,安装过程可以参考:https://blog.csdn.net/lilong117194/article/details/83277075 (2)word2vec的训练过程,需要安装的包有jieba,这个包的安装很简单。 (3)lstm的训练过程,需要安装tensorflow和keras,mac下的安装也很简单
三、各个.py文件的说明
(1)reptile.py:爬虫文件 下面是各个函数的说明
get_page_url(self,url,num):模拟鼠标点击网页,获取指定页的网址。 参数url:网页地址,num:指定的网页数,也即是第几页,如下所示 在这里插入图片描述
download_report(self,text_link,re_sum_info):下载指定网页的研报文本。
get_report_page(self,page_start,page_end):以起始和终止页面数为爬取标准
get_report_date(self,start_date,end_date):以起始和终止时期为爬取标准
(2)del_Ds_store.py:辅助文件,该文件的作用是删除m