python爬虫实战:爬取http://cffex.com.cn/网站的期货持仓信息,存入mysql库中
需要爬取http://cffex.com.cn/ccpm/?productid=IF页面上的IF、IC、IH、TS、TF、T的持仓信息,时间为[2016.1.1到2020.1.1)。
首先查看robots.txt,该网站没有robots.txt文件。
查看网页源码,发现查询选取日期种类部分使用了多次写代码,问题主要有:
1.日期部分逻辑小问题;
2.每个页面耗时渐渐增加,爬到一半甚至一个页面需要9s左右,从爬取完到存入库;
3.xml文件中的标签名大小写不一致;标签内容有空格等。
问题1经过几次实验改进。问
原创
2020-09-22 21:42:10 ·
1022 阅读 ·
0 评论