- 博客(3)
- 资源 (6)
- 收藏
- 关注
原创 scrapy爬取动态分页内容
难点:1) scrapy如何动态加载所有“下一页”:要知道scrapy本身是不支持js操作的。2) 如何确保页面内容加载完成后再进行爬取:由于内容是通过js加载的,如果不加控制,很可能出现爬到空页面的情况。处理方法:1)scrapy+selenium模拟浏览器点击:通过模拟浏览器点击的方式进行翻页,从而获取每一页内部的有效链接。2)使用WebDriverWait()等待数据加载:即确保对应内容加载完成后,在进行相应爬取任务。
2016-05-29 16:12:12 21893 1
原创 python编码问题分析
主要介绍:1、编码转换的基本原理;2、将列表中的数字、字符串、Unicode都转换为string;3、将编码为A的数据,输出到编码为B的文件。
2016-05-28 17:32:00 847
R语言与网站分析:数据集样例及分类算法实现
2016-02-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人