2018年09月_FanJuns

12月 11月 10月 09月

原创 scrapy重写pipelines.py存储图片

重写pipeline.py import scrapy from scrapy.pipelines.images import ImagesPipeline class ZhanzhangsucaispiderPipeline(object): def process_item(self, item, spider): return item #自定义图片存储pipe...

2018-09-27 21:23:12 903 1

原创 scrapy默认文件和图片的存储

scrapy自带文件和图片的存储方式，设置方式如下

2018-09-27 21:00:40 646

# -*- coding: utf-8 -*- # Scrapy settings for QiShuSpider project # # For simplicity, this file contains only settings considered important or # commonly used. You can find more settings consulting t...

2018-09-26 21:40:12 470

转载 selenium模拟登陆百度云盘

from selenium import webdriver import time driver=webdriver.Chrome() driver.maximize_window() driver.get("https://pan.baidu.com/") driver.implicitly_wait(5) time.sleep(3) #等待三秒钟定位到账号密码登陆这个地方，进行点击 dr...

2018-09-26 21:04:38 1235

原创 selenium模块的详细总结

使用selenium对网页发起请求 # 导入webdriver from selenium import webdriver # 创建一个浏览器对象 browser = webdriver.Chrome() # 使用浏览器对象对网址发起请求 browser.get('url') selenium的定位单个节点 # 通过id值匹配 res = browser.find_element_by_id(...

2018-09-20 22:15:00 939

原创 Scrapy框架使用微博CookiesPool时的相关设置

我们想要爬取微博这样的大型网站，如果不采取一些措施，IP很容易遭到查封，而使用cookie池便是很好的方法。 **第一步：**下载代理Cookie池下载网址：GitHub：https://github.com/Python3WebSpider/CookiesPool 进入到该网站并下载下载完成解压缩文件之后，需要进行一些配置的更改，如图以及config.py文件底部的设置，第一个在新...

2018-09-20 19:26:34 566 2

zhihuSpider

scrapy是我们爬虫常用的一个框架，功能完整，我用其对知乎网站进行了爬取

2018-09-20

windows下mongodb的安装

MongoDB是python中一种常用的非关系型数据库，我们可以用它来存储一些数据，这里是它的安装的详细过程

2018-09-20

selenium模块

selenium模块是python爬虫中一个解决一些网页反爬虫的一个有效手段，可以使用它来模拟人操作浏览器的行为

2018-09-20

time和datetime两种模块的总结

关于time模块和datetime模块的详细总结，可以对比并加以区分

2018-09-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

qq_41989320的博客

原创 scrapy重写pipelines.py存储图片

原创 scrapy默认文件和图片的存储

原创 scrapy框架settings.py文件内容的注释

转载 selenium模拟登陆百度云盘

原创 selenium模块的详细总结

原创 Scrapy框架使用微博CookiesPool时的相关设置

zhihuSpider

windows下mongodb的安装

selenium模块

time和datetime两种模块的总结

空空如也