自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 资源 (4)
  • 收藏
  • 关注

原创 scrapy重写pipelines.py存储图片

重写pipeline.py import scrapy from scrapy.pipelines.images import ImagesPipeline class ZhanzhangsucaispiderPipeline(object): def process_item(self, item, spider): return item #自定义图片存储pipe...

2018-09-27 21:23:12 903 1

原创 scrapy默认文件和图片的存储

scrapy自带文件和图片的存储方式,设置方式如下

2018-09-27 21:00:40 646

原创 scrapy框架settings.py文件内容的注释

# -*- coding: utf-8 -*- # Scrapy settings for QiShuSpider project # # For simplicity, this file contains only settings considered important or # commonly used. You can find more settings consulting t...

2018-09-26 21:40:12 470

转载 selenium模拟登陆百度云盘

from selenium import webdriver import time driver=webdriver.Chrome() driver.maximize_window() driver.get("https://pan.baidu.com/") driver.implicitly_wait(5) time.sleep(3) #等待三秒钟定位到账号密码登陆这个地方,进行点击 dr...

2018-09-26 21:04:38 1235

原创 selenium模块的详细总结

使用selenium对网页发起请求 # 导入webdriver from selenium import webdriver # 创建一个浏览器对象 browser = webdriver.Chrome() # 使用浏览器对象对网址发起请求 browser.get('url') selenium的定位单个节点 # 通过id值匹配 res = browser.find_element_by_id(...

2018-09-20 22:15:00 939

原创 Scrapy框架使用微博CookiesPool时的相关设置

我们想要爬取微博这样的大型网站,如果不采取一些措施,IP很容易遭到查封,而使用cookie池便是很好的方法。 **第一步:**下载代理Cookie池 下载网址:GitHub:https://github.com/Python3WebSpider/CookiesPool 进入到该网站并下载 下载完成解压缩文件之后,需要进行一些配置的更改,如图 以及config.py文件底部的设置,第一个在新...

2018-09-20 19:26:34 566 2

zhihuSpider

scrapy是我们爬虫常用的一个框架,功能完整,我用其对知乎网站进行了爬取

2018-09-20

windows下mongodb的安装

MongoDB是python中一种常用的非关系型数据库,我们可以用它来存储一些数据,这里是它的安装的详细过程

2018-09-20

selenium模块

selenium模块是python爬虫中一个解决一些网页反爬虫的一个有效手段,可以使用它来模拟人操作浏览器的行为

2018-09-20

time和datetime两种模块的总结

关于time模块和datetime模块的详细总结,可以对比并加以区分

2018-09-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除