2018年03月_人生三醒七分醉

转载 Python3 爬虫中代理的使用方法

学爬虫我们已经了解了多种请求库，如 Requests、Urllib、Selenium 等。我们接下来首先贴近实战，了解一下代理怎么使用。下面我们来梳理一下这些库的代理的设置方法。1. 获取代理在做测试之前，我们需要先获取一个可用代理，搜索引擎搜索“代理”关键字，就可以看到有许多代理服务网站，在网站上会有很多免费代理，比如西刺：http://www.xicidaili.com/，这里列出了很多免费代...

2018-03-28 21:44:50 4030 1

原创笔记--抓取王者荣耀盒子图片视频

此文章借鉴：https://blog.csdn.net/c406495762/article/details/76850843作者思路很新奇，所以学习测试了一下，可以成功，特意跟大家分享一下。准备工作需要用到工具fiddler抓包工具APP王者荣耀盒子下载fiddler之后设置一下参数 Tools>options勾选这些HTTPS参数在Connections中设置如下，这里使用默认8888端...

2018-03-27 11:08:14 589

原创笔记-抓取淘宝信息

今天为大家介绍用selenium自动化工具抓取淘宝美食1.直接上代码#coding:utf-8import refrom pyquery import PyQuery as pqfrom selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.u...

2018-03-25 23:11:19 626

转载 redis 在32位系统安装以及使用及redis-desktop-manager下载

1.下载32位redis文件。 http://pan.baidu.com/s/1eRIZPAE我下载后的路径是：E:\Redis\Redis 里面的文件如图: 2.调取命令窗口 win+R,输入命令：redis-server.exe Redis.conf 看到如下界面说明安装成功。 3.再打开一个窗口做测试。用自带的客户端工具进行测试命令【redis-cli.exe】如图，已经可以使用...

2018-03-23 23:15:03 4380

原创笔记-多进程抓取猫眼TOP100

今天为大家介绍使用requests模块和正则表达式配合抓取#coding:utf-8from requests.exceptions import RequestExceptionimport requestsimport reimport jsonfrom multiprocessing import Pooldef get_one_page(url): try: ...

2018-03-20 16:01:18 236

原创笔记-抓取今日头条图片

分析Ajax抓取街拍图片，将url等数据存储为json格式，并把图片保存下来#coding:utf-8import osfrom _md5 import md5from urllib.parse import urlencodeimport refrom bs4 import BeautifulSoupfrom requests.exceptions import Connectio...

2018-03-20 16:01:05 296

原创笔记-selenium（五）

安装 pip3 install selenium基本使用from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support import expected_c...

2018-03-17 14:03:36 296

原创笔记-pyquery（四）

安装 pip3 install pyquery初始化字符串初始化html = '''<div> <ul> <li class="item-0">first item</li> <li class="item-1"><a href="link2.html&quot

2018-03-17 14:03:07 203

原创笔记-正则表达式（三）

正则表达式常见匹配模式模式描述\w匹配字母数字及下划线\W匹配非字母数字下划线\s匹配任意空白字符，等价于 [\t\n\r\f].\S匹配任意非空字符\d匹配任意数字，等价于 [0-9]\D匹配任意非数字\A匹配字符串开始\Z匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串\z匹配字符串结束\G匹配最后匹配完成的位置\n匹配一个换行符\t匹配一个制表符^匹配字符串的开头$匹配字符串的末尾...

2018-03-17 14:02:37 290

原创笔记-requests详解（二）

实例引入import requestsresponse = requests.get('https://www.baidu.com/')print(type(response))print(response.status_code)print(type(response.text))print(response.text)print(response.cookies)各种请求方式im...

2018-03-17 14:02:02 348

原创笔记-urllib详解（一）

代码笔记，用于查询urlliburlopenurllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)import urllib.parseimport urllib.requestdata = bytes(urllib.parse....

2018-03-16 22:29:50 423

转载 scrapy模拟登陆

模拟浏览器登录start_requests()方法，可以返回一个请求给爬虫的起始网站，这个返回的请求相当于start_urls，start_requests()返回的请求会替代start_urls里的请求Request()get请求，可以设置，url、cookie、回调函数FormRequest.from_response()表单post提交，第一个必须参数，上一次响应cookie的respons...

2018-03-16 17:57:55 383

原创笔记——scrapy 抓取图片

今天来学习一下使用scrapy对图片的进行抓取1. 创建项目scrapy startproject xiaohuascrapy创建spider文件，取名xiaohua.py2.定义 Itemimport scrapyfrom scrapy.item import Item, Fieldclass XiaohuascrapyItem(scrapy.Item): # define the...

2018-03-16 17:30:47 223

转载 Scrapy笔记- Item Pipeline

当一个item被蜘蛛爬取到之后会被发送给Item Pipeline，然后多个组件按照顺序处理这个item。每个Item Pipeline组件其实就是一个实现了一个简单方法的Python类。他们接受一个item并在上面执行逻辑，还能决定这个item到底是否还要继续往下传输，如果不要了就直接丢弃。使用Item Pipeline的常用场景：清理HTML数据验证被抓取的数据(检查item是否包含某些字段...

2018-03-15 18:01:45 301

转载 Scrapy笔记-抓取虎嗅网

这篇文章我们通过一个比较完整的例子来教你使用Scrapy，我选择爬取虎嗅网首页的新闻列表。这里我们将完成如下几个步骤：创建一个新的Scrapy工程定义你所需要要抽取的Item对象编写一个spider来爬取某个网站并提取出所有的Item对象编写一个Item Pipline来存储提取出来的Item对象Scrapy使用Python语言编写，如果你对这门语言还不熟，请先去学习下基本知识。创建Scrapy工...

2018-03-15 15:08:10 707

原创笔记--scrapy 爬取IP 存储到MySQL数据库

本章将讲述爬取IP地址，为后期深入爬虫做准备1.准备工作分析一下我们要抓取那些字段和网页的结构，我们要抓取的是ip地址，端口，服务器地址，速度，存活时间等查看一下网页的结构可以看到要抓取的内容主要在table里面，按照次序抓取即可，最后是存储到数据库中。2.创建项目在终端创建一个项目scrapy startproject collectips创建spider文件cd collectipsscra...

2018-03-15 14:27:43 464

转载 python scrapy 下载文件与图片相关小知识

Scrapy为我们提供了可重用的 item pipelines为某个特定的Item去下载文件。通常来说你会选择使用Files Pipeline或Images Pipeline。这两个管道都实现了：避免重复下载可以指定下载后保存的地方(文件系统目录中,Amazon S3中)Images Pipeline为处理图片提供了额外的功能：将所有下载的图片格式转换成普通的JPG并使用RGB颜色模式生成缩略图...

2018-03-14 18:08:50 343

转载 scrapy 抓取糗百存储到Excel +MySQL数据库+MongoDB数据库

今天来学习一下用框架抓取糗事百科段子，安装scrapy请参考前面文章，首先创建一个项目,打开终端scrapy startproject qiubai目录下会生成一个qiubai的文件cd qiubai #进入里面scrapy genspider qiubai http://www.qiushibaike.com/8hr/page/1/?s=4984271 #创建spider文件，名字唯一的不能重...

2018-03-14 13:30:11 564

moon的博客