爬虫技巧
会飛de鱼
这个作者很懒,什么都没留下…
展开
-
爬虫翻页技巧
在学习scrapy练习爬取网站内容的时候,经常会遇到翻页问题。今天把用过的翻页方法总结一下:翻页人类操作一般有两种方法(1)点击下一页(2)输入页码,然后跳转。那么对于机器1、使用selenium库模拟(1)模拟点击“下一页”按钮。使用selenium库模拟点击,这种方法就相当于我们点击“下一页”按钮,经过等待页面显示完全,抓取页面中需要的数据,然后再模拟点击,以此类推,直到抓取所有页码的数据。这...原创 2018-06-21 09:42:00 · 11835 阅读 · 0 评论 -
网页爬虫---scrapy进阶
1. 站点选取现在的大网站基本除了pc端都会有移动端,所以需要先确定爬哪个。比如爬新浪微博,有以下几个选择:www.weibo.com,主站www.weibo.cn,简化版m.weibo.cn,移动版上面三个中,主站的微博数据是动态加载的,意味着光看源码是看不到数据的,想爬的话要么搞清楚其api访问情况,要么模拟js,那样的话花的力气可能就有点多了。weibo.cn是一个简化版,数据能直接从网页源...转载 2018-07-05 09:31:16 · 220 阅读 · 0 评论