![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
ding283595861
这个作者很懒,什么都没留下…
展开
-
爬虫Selenium和PhantomJS使用方法
详细的介绍如下: 转载:https://www.jianshu.com/p/3e4241085490原创 2019-08-09 09:33:32 · 244 阅读 · 0 评论 -
Scrapy 爬取贴吧的例子
由于该网站是通过js处理的,在spidertieba.py中,通过response.xpath(’//li[@class=" j_thread_list clearfix"]’)解析字段信息, 始终没法抓取到数据. 如何抓取到数据是关键, 就想到了用scrapy + selenium 进行动态加载页面的内容爬取。 在middlewares.py中,使用了 selenium+chromedr...原创 2019-09-10 10:37:36 · 1033 阅读 · 0 评论 -
scray下载图片修改路径或者重命名文件方法
1.在settings.py中定义设置图片存储目录 IMAGES_STORE = 'D:\ImageSpider' 2.有两种方法修改文件名: A . 在pipelines.py中,重写file_path即可,这样存储的文件路 径就类似这样: D:\ImageSpider\*.jpg class ImagespiderPipeline(ImagesPipeline): def fi...原创 2019-09-11 10:47:45 · 468 阅读 · 0 评论 -
selenium + chrome 爬取淘宝数据
下面只是一个简单的例子, 使用selenium+ chrome爬取淘宝数据,能跑通,但是存在以下两个问题: 爬取淘宝数据之前需要先登录淘宝账号,不然没法抓取数据,网上的很多例子,没有提起登录这事,估计之前的版本不需要登录就可以爬取,但是最新的淘宝网站,不登录,就没法爬取。之前一直使用无界面的浏览器爬取,总是失败,所以用有界面的浏览器才发现此问题 该爬虫可以正常跑几次,如果一直反复跑的话,...原创 2019-09-18 20:30:01 · 947 阅读 · 0 评论