- 博客(6)
- 资源 (4)
- 收藏
- 关注
原创 scrapy重写pipelines.py存储图片
重写pipeline.py import scrapy from scrapy.pipelines.images import ImagesPipeline class ZhanzhangsucaispiderPipeline(object): def process_item(self, item, spider): return item #自定义图片存储pipe...
2018-09-27 21:23:12 903 1
原创 scrapy框架settings.py文件内容的注释
# -*- coding: utf-8 -*- # Scrapy settings for QiShuSpider project # # For simplicity, this file contains only settings considered important or # commonly used. You can find more settings consulting t...
2018-09-26 21:40:12 470
转载 selenium模拟登陆百度云盘
from selenium import webdriver import time driver=webdriver.Chrome() driver.maximize_window() driver.get("https://pan.baidu.com/") driver.implicitly_wait(5) time.sleep(3) #等待三秒钟定位到账号密码登陆这个地方,进行点击 dr...
2018-09-26 21:04:38 1235
原创 selenium模块的详细总结
使用selenium对网页发起请求 # 导入webdriver from selenium import webdriver # 创建一个浏览器对象 browser = webdriver.Chrome() # 使用浏览器对象对网址发起请求 browser.get('url') selenium的定位单个节点 # 通过id值匹配 res = browser.find_element_by_id(...
2018-09-20 22:15:00 939
原创 Scrapy框架使用微博CookiesPool时的相关设置
我们想要爬取微博这样的大型网站,如果不采取一些措施,IP很容易遭到查封,而使用cookie池便是很好的方法。 **第一步:**下载代理Cookie池 下载网址:GitHub:https://github.com/Python3WebSpider/CookiesPool 进入到该网站并下载 下载完成解压缩文件之后,需要进行一些配置的更改,如图 以及config.py文件底部的设置,第一个在新...
2018-09-20 19:26:34 566 2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人