范祸祸-CSDN博客

原创 python爬虫常见错误

这里是引用网页出现乱码[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AUElB64E-1597473279714)(assets/image-20200522135847735.png)]出现乱码的原因是因为网页解码过程中没有设置如何编码response.encoding = response.apparent_encoding请求头参数InvalidHeader: Invalid return character or leading space in h.

2020-12-21 13:45:19 824

原创 python爬虫数据解析-css选择器

数据解析结构化数据结构化的数据是指可以使用关系型数据库表示和存储，表现为二维形式的数据。一般特点是：数据以行为单位，一行数据表示一个实体的信息，每一行数据的属性是相同的。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jIC2hGv9-1597472766582)(assets/1560577029244.png)]半结构化数据非关系模型的、有基本固定结构模式的数据，例如日志文件、XML文档、JSON文档等。http://www.bejson.com/jsonedi

2020-12-21 13:45:02 777

原创 python数据解析-re、xpath选择器的使用

1. 正则表达式正则表达式，又称规则表达式**。**（英语：Regular Expression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。——百度百科下面是正则表达式常见的使用场景：检查字符串的合法性验证用户名（a-z，0-9，不能全是数字，不能全是字母）验证邮箱格式 (xxx@qq.com)验证电话号码 (11位数字)验证身份证 (18位 )验证QQ号码格式（5-12纯数字，第一位不能

2020-12-21 13:44:52 682

原创 python爬虫数据持久化

数据持久化1. 文件操作计算机的文件，就是存储在某种长期储存设备上的一段数据长期存储设备包括：硬盘、U 盘、移动硬盘、光盘…文本文件和二进制文件文本文件可以使用文本编辑软件查看本质上还是二进制文件例如：python 的源程序二进制文件保存的内容不是给人直接阅读的，而是提供给其他软件使用的例如：图片文件、音频文件、视频文件等等二进制文件不能使用文本编辑软件查看1.1 文件的基本操作操作文件的函数/方法在 Python 中要操作文件需要记住 1 个

2020-12-21 13:44:40 386

原创 python爬虫requests高级-会话维持

List itemRequests高级这篇文档中将介绍 Requests 的一些高级特性。为了模拟浏览器的功能,只有之前的知识是不够的,在学习了高级的知识后,我们可以更好的模拟浏览器的功能。完成更多的网页的采集工作。状态保持HTTP协议是无状态的协议。无状态是指协议对于事务处理没有记忆功能。缺少状态意味着,假如后面的处理需要前面的信息,则前面的信息必须重传,这样可能导致每次连接传送的数据量增大。另一方面,在服务器不需要前面信息时,应答就较快。直观地说,就是每个请求都是独立的,与前面的请求..

2020-12-21 13:44:30 999

原创 python爬虫-反反爬虫-图片验证码

图片验证码处理目前，很多网站为了防止爬虫爬取，登录时需要用户输入验证码。下面我们学习如何在爬虫程序中识别验证码。其中包含验证码。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jbmnec7W-1597473322535)(assets/00038.jpeg)]页面中的验证码图片对应一个<img>元素，即一张图片，浏览器加载完登录页面后，会携带之前访问获取的Cookie信息，继续发送一个HTTP请求加载验证码图片。和账号密码输入框一样，验证码输入框也对应一个

2020-12-21 13:44:14 903

原创 Chrome 开发者工具的使用方法

chrome 开发者工具当我们爬取不同的网站是，每个网站页面的实现方式各不相同，我们需要对每个网站都进行分析。那是否有一些通用的分析方法？我分享下自己爬取分析的“套路”。在某个网站上，分析页面以及抓取数据，我用得最多的工具是 Chrome 开发者工具。Chrome 开发者工具是一套内置于 Google Chrome 中的 Web 开发和调试工具，可用来对网站进行迭代、调试和分析。因为国内很多浏览器内核都是基于 Chrome 内核，所以国产浏览器也带有这个功能。例如：UC 浏览器、QQ 浏览器、360 浏

2020-12-21 13:43:17 623

原创 python爬虫-滑动验证码

1. 滑动验证码说到滑动验证码，一定一定要提某验，虽然说市面上关于滑动验证码的产品有很多，但是某验的地位就像 10 年前脑白金在保健品市场的地位一样，业界标杆啊。它越牛逼，市场上用它做防护的网站也越多，像国家企业信用信息公示系统、B 站、京东等等。像某验的解决方案也有很多，不过原理大同小异。1.1 简单滑动验证码目标网址：https://member.zjtcn.com/common/login.html一般来说我们与页面的交互可以使用Webelement的方法来进行点击等操作。但是，有时候我

2020-12-21 13:42:57 837

原创字体反扒

字体反扒认识字体在爬虫爬取页面的时候，页面中的代码是乱码，但是在人眼看到的是原文，这样的映射关系让爬虫无法顺利爬取到网站内容。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qLirrYns-1601297485829)(assets/640-1575274230636.png)]**1.文字的外在形式特征。**就是文字的风格，是文字的外衣。字体的艺术性体现在其完美的外在形式与丰富的内涵之中。字体是文化的载体，是社会的缩影。**2.微机系统的字体font。**这类

2020-12-21 13:42:44 306

原创异步爬虫

前言：python由于GIL（全局锁）的存在，不能发挥多核的优势，其性能一直饱受诟病。然而在IO密集型的网络编程里，异步处理比同步处理能提升成百上千倍的效率，弥补了python性能方面的短板，如最新的微服务框架japronto，resquests per second可达百万级。python还有一个优势是库（第三方库）极为丰富，运用十分方便。asyncio是python3.4版本引入到标准库。python3.5又加入了async/await特性。概念在学习asyncio之前，我们先来理清楚同步/异步

2020-12-21 13:42:15 277

原创 03 APP爬虫

APP爬虫—Fiddler的安装与使用Fiddler的简介Fiddler是位于客户端和服务器端之间的代理，也是目前最常用的抓包工具之一。它能够记录客户端和服务器之间的所有请求，可以针对特定的请求，分析请求数据、设置断点、调试web应用、修改请求的数据，甚至可以修改服务器返回的数据，功能非常强大，是web调试的利器。看到这么多的应用，是不是就迫不及待的想要开始你的抓包之旅呢，不要急，俗话说的好：工欲善其事，必先利其器，我们先来安装Fiddler吧。Fiddler的下载打开官网，官网下载地址是h

2020-12-21 13:41:57 361

原创 scrapy框架

初识 scrapyScrapy是一个使用Python语言（基于Twisted框架）编写的开源网络爬虫框架，目前由Scrapinghub Ltd维护。Scrapy简单易用、灵活易拓展、开发社区活跃，并且是跨平台的。在Linux、 MaxOS以及Windows平台都可以使用。1. Scrapy 简介1.1 网络爬虫网络爬虫是指在互联网上自动爬取网站内容信息的程序，也被称作网络蜘蛛或网络机器人。大型的爬虫程序被广泛应用于搜索引擎、数据挖掘等领域，个人用户或企业也可以利用爬虫收集对自身有价值的数据。一个网

2020-12-21 13:41:23 591

Green_F的博客

原创 python爬虫常见错误

原创 python爬虫数据解析-css选择器

原创 python数据解析-re、xpath选择器的使用

原创 python爬虫数据持久化

原创 python爬虫requests高级-会话维持

原创 python爬虫-反反爬虫-图片验证码

原创 Chrome 开发者工具的使用方法

原创 python爬虫-滑动验证码

原创字体反扒

原创异步爬虫

原创 03 APP爬虫

原创 scrapy框架

原创 Selenium自动化

原创 python爬取lol所有英雄皮肤和英雄的语音包

原创爬取某视频网上的所有搞笑视频，喜欢做视频的小伙伴就有素材了

原创爬取表情包-1分钟爬取1000多张图，斗图不在怕-（原创）

原创爬取小说案例-斗破苍穹（原创）

转载 python 贪吃蛇（源代码）

空空如也

空空如也