本科毕业论文项目:《基于文本数据挖掘技术的内幕交易识别模型》的相关环节代码目录如下,已经全部更新,欢迎品尝:
——————————-分割线——————————
这是我第一次使用python所涉及到的小项目,目的是爬取金融界上的所有财经新闻的文本信息,时间跨度为2010-2013年。思路主要如下:
一、找到网页URL的规律,并通过正则表达式进行表达,筛选出有新闻文本信息的URL
二、通过解析网页的布局,通过标签定位所需爬取的文本信息
三、遍历所有符合标准、未曾访问过的URL,并将文本信息提取、保存为txt文件
四、优化爬虫,主要考虑:递归次数、浏览器抬头伪装、间隔时长,以及其他必要措施如代理IP池构建与使用、反爬虫机制应对、多线程并行……等等
实际上,作为我本科阶段毕业论文获取数据的手段,兼之所爬取的金融界网站比较“友好”,故,实战中仅仅通过设置递归次数、伪装浏览器抬头、设置1s的间隔时长便能够达到不错的效果:按月份爬取2010-