自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

转载 Python3 爬虫中代理的使用方法

学爬虫我们已经了解了多种请求库,如 Requests、Urllib、Selenium 等。我们接下来首先贴近实战,了解一下代理怎么使用。下面我们来梳理一下这些库的代理的设置方法。1. 获取代理在做测试之前,我们需要先获取一个可用代理,搜索引擎搜索“代理”关键字,就可以看到有许多代理服务网站,在网站上会有很多免费代理,比如西刺:http://www.xicidaili.com/,这里列出了很多免费代...

2018-03-28 21:44:50 4030 1

原创 笔记--抓取王者荣耀盒子图片视频

此文章借鉴:https://blog.csdn.net/c406495762/article/details/76850843作者思路很新奇,所以学习测试了一下,可以成功,特意跟大家分享一下。准备工作需要用到工具fiddler抓包工具APP王者荣耀盒子下载fiddler之后设置一下参数 Tools>options勾选这些HTTPS参数在Connections中设置如下,这里使用默认8888端...

2018-03-27 11:08:14 589

原创 笔记-抓取淘宝信息

今天为大家介绍用selenium自动化工具抓取淘宝美食1.直接上代码#coding:utf-8import refrom pyquery import PyQuery as pqfrom selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.u...

2018-03-25 23:11:19 626

转载 redis 在32位系统安装以及使用及redis-desktop-manager下载

1.下载32位redis文件。 http://pan.baidu.com/s/1eRIZPAE我下载后的路径是:E:\Redis\Redis 里面的文件如图:  2.调取命令窗口 win+R,输入命令:redis-server.exe Redis.conf  看到如下界面说明安装成功。 3.再打开一个窗口做测试。 用自带的客户端工具进行测试 命令【redis-cli.exe】  如图,已经可以使用...

2018-03-23 23:15:03 4380

原创 笔记-多进程抓取猫眼TOP100

今天为大家介绍使用requests模块和正则表达式配合抓取#coding:utf-8from requests.exceptions import RequestExceptionimport requestsimport reimport jsonfrom multiprocessing import Pooldef get_one_page(url): try: ...

2018-03-20 16:01:18 236

原创 笔记-抓取今日头条图片

分析Ajax抓取街拍图片,将url等数据存储为json格式,并把图片保存下来#coding:utf-8import osfrom _md5 import md5from urllib.parse import urlencodeimport refrom bs4 import BeautifulSoupfrom requests.exceptions import Connectio...

2018-03-20 16:01:05 296

原创 笔记-selenium(五)

安装 pip3 install selenium基本使用from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support import expected_c...

2018-03-17 14:03:36 296

原创 笔记-pyquery(四)

安装 pip3 install pyquery初始化字符串初始化html = '''<div> <ul> <li class="item-0">first item</li> <li class="item-1"><a href="link2.html&quot

2018-03-17 14:03:07 203

原创 笔记-正则表达式(三)

正则表达式常见匹配模式模式描述\w匹配字母数字及下划线\W匹配非字母数字下划线\s匹配任意空白字符,等价于 [\t\n\r\f].\S匹配任意非空字符\d匹配任意数字,等价于 [0-9]\D匹配任意非数字\A匹配字符串开始\Z匹配字符串结束,如果是存在换行,只匹配到换行前的结束字符串\z匹配字符串结束\G匹配最后匹配完成的位置\n匹配一个换行符\t匹配一个制表符^匹配字符串的开头$匹配字符串的末尾...

2018-03-17 14:02:37 290

原创 笔记-requests详解(二)

实例引入import requestsresponse = requests.get('https://www.baidu.com/')print(type(response))print(response.status_code)print(type(response.text))print(response.text)print(response.cookies)各种请求方式im...

2018-03-17 14:02:02 348

原创 笔记-urllib详解(一)

代码笔记,用于查询urlliburlopenurllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)import urllib.parseimport urllib.requestdata = bytes(urllib.parse....

2018-03-16 22:29:50 423

转载 scrapy模拟登陆

模拟浏览器登录start_requests()方法,可以返回一个请求给爬虫的起始网站,这个返回的请求相当于start_urls,start_requests()返回的请求会替代start_urls里的请求Request()get请求,可以设置,url、cookie、回调函数FormRequest.from_response()表单post提交,第一个必须参数,上一次响应cookie的respons...

2018-03-16 17:57:55 383

原创 笔记——scrapy 抓取图片

今天来学习一下使用scrapy对图片的进行抓取1. 创建项目scrapy startproject xiaohuascrapy创建spider文件,取名xiaohua.py2.定义 Itemimport scrapyfrom scrapy.item import Item, Fieldclass XiaohuascrapyItem(scrapy.Item): # define the...

2018-03-16 17:30:47 223

转载 Scrapy笔记- Item Pipeline

当一个item被蜘蛛爬取到之后会被发送给Item Pipeline,然后多个组件按照顺序处理这个item。 每个Item Pipeline组件其实就是一个实现了一个简单方法的Python类。他们接受一个item并在上面执行逻辑,还能决定这个item到底是否还要继续往下传输,如果不要了就直接丢弃。使用Item Pipeline的常用场景:清理HTML数据验证被抓取的数据(检查item是否包含某些字段...

2018-03-15 18:01:45 301

转载 Scrapy笔记-抓取虎嗅网

这篇文章我们通过一个比较完整的例子来教你使用Scrapy,我选择爬取虎嗅网首页的新闻列表。这里我们将完成如下几个步骤:创建一个新的Scrapy工程定义你所需要要抽取的Item对象编写一个spider来爬取某个网站并提取出所有的Item对象编写一个Item Pipline来存储提取出来的Item对象Scrapy使用Python语言编写,如果你对这门语言还不熟,请先去学习下基本知识。创建Scrapy工...

2018-03-15 15:08:10 707

原创 笔记--scrapy 爬取IP 存储到MySQL数据库

本章将讲述爬取IP地址,为后期深入爬虫做准备1.准备工作分析一下我们要抓取那些字段和网页的结构,我们要抓取的是ip地址,端口,服务器地址,速度,存活时间等查看一下网页的结构可以看到要抓取的内容主要在table里面,按照次序抓取即可,最后是存储到数据库中。2.创建项目在终端创建一个项目scrapy startproject collectips创建spider文件cd collectipsscra...

2018-03-15 14:27:43 464

转载 python scrapy 下载文件与图片相关小知识

Scrapy为我们提供了可重用的 item pipelines为某个特定的Item去下载文件。 通常来说你会选择使用Files Pipeline或Images Pipeline。这两个管道都实现了:避免重复下载可以指定下载后保存的地方(文件系统目录中,Amazon S3中)Images Pipeline为处理图片提供了额外的功能:将所有下载的图片格式转换成普通的JPG并使用RGB颜色模式生成缩略图...

2018-03-14 18:08:50 343

转载 scrapy 抓取糗百存储到Excel +MySQL数据库+MongoDB数据库

今天来学习一下用框架抓取糗事百科段子,安装scrapy请参考前面文章,首先创建一个项目,打开终端scrapy startproject qiubai目录下会生成一个qiubai的文件cd qiubai #进入里面scrapy genspider qiubai http://www.qiushibaike.com/8hr/page/1/?s=4984271 #创建spider文件,名字唯一的不能重...

2018-03-14 13:30:11 564

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除