- 博客(18)
- 收藏
- 关注
原创 python爬虫常见错误
这里是引用网页出现乱码[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AUElB64E-1597473279714)(assets/image-20200522135847735.png)]出现乱码的原因是因为网页解码过程中没有设置如何编码response.encoding = response.apparent_encoding请求头参数InvalidHeader: Invalid return character or leading space in h.
2020-12-21 13:45:19 750
原创 python爬虫数据解析-css选择器
数据解析结构化数据结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jIC2hGv9-1597472766582)(assets/1560577029244.png)]半结构化数据非关系模型的、有基本固定结构模式的数据,例如日志文件、XML文档、JSON文档等。http://www.bejson.com/jsonedi
2020-12-21 13:45:02 705
原创 python数据解析-re、xpath选择器的使用
1. 正则表达式正则表达式,又称规则表达式**。**(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。——百度百科下面是正则表达式常见的使用场景:检查字符串的合法性验证用户名 (a-z,0-9,不能全是数字,不能全是字母)验证邮箱格式 (xxx@qq.com)验证电话号码 (11位数字)验证身份证 (18位 )验证QQ号码格式(5-12纯数字,第一位不能
2020-12-21 13:44:52 593
原创 python爬虫数据持久化
数据持久化1. 文件操作计算机的文件,就是存储在某种 长期储存设备 上的一段 数据长期存储设备包括:硬盘、U 盘、移动硬盘、光盘…文本文件和二进制文件文本文件可以使用 文本编辑软件 查看本质上还是二进制文件例如:python 的源程序二进制文件保存的内容 不是给人直接阅读的,而是 提供给其他软件使用的例如:图片文件、音频文件、视频文件等等二进制文件不能使用 文本编辑软件 查看1.1 文件的基本操作操作文件的函数/方法在 Python 中要操作文件需要记住 1 个
2020-12-21 13:44:40 319
原创 python爬虫requests高级-会话维持
List itemRequests高级这篇文档中将介绍 Requests 的一些高级特性。为了模拟浏览器的功能,只有之前的知识是不够的,在学习了高级的知识后,我们可以更好的模拟浏览器的功能。完成更多的网页的采集工作。状态保持HTTP协议是无状态的协议。无状态是指协议对于事务处理没有记忆功能。缺少状态意味着,假如后面的处理需要前面的信息,则前面的信息必须重传,这样可能导致每次连接传送的数据量增大。另一方面,在服务器不需要前面信息时,应答就较快。直观地说,就是每个请求都是独立的,与前面的请求..
2020-12-21 13:44:30 901
原创 python爬虫-反反爬虫-图片验证码
图片验证码处理目前,很多网站为了防止爬虫爬取,登录时需要用户输入验证码。下面我们学习如何在爬虫程序中识别验证码。其中包含验证码。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jbmnec7W-1597473322535)(assets/00038.jpeg)]页面中的验证码图片对应一个<img>元素,即一张图片,浏览器加载完登录页面后,会携带之前访问获取的Cookie信息,继续发送一个HTTP请求加载验证码图片。和账号密码输入框一样,验证码输入框也对应一个
2020-12-21 13:44:14 806
原创 Chrome 开发者工具的使用方法
chrome 开发者工具当我们爬取不同的网站是,每个网站页面的实现方式各不相同,我们需要对每个网站都进行分析。那是否有一些通用的分析方法?我分享下自己爬取分析的“套路”。在某个网站上,分析页面以及抓取数据,我用得最多的工具是 Chrome 开发者工具。Chrome 开发者工具是一套内置于 Google Chrome 中的 Web 开发和调试工具,可用来对网站进行迭代、调试和分析。因为国内很多浏览器内核都是基于 Chrome 内核,所以国产浏览器也带有这个功能。例如:UC 浏览器、QQ 浏览器、360 浏
2020-12-21 13:43:17 477
原创 python爬虫-滑动验证码
1. 滑动验证码说到滑动验证码,一定一定要提某验,虽然说市面上关于滑动验证码的产品有很多,但是某验的地位就像 10 年前脑白金在保健品市场的地位一样,业界标杆啊。它越牛逼,市场上用它做防护的网站也越多,像国家企业信用信息公示系统、B 站、京东等等。像某验的解决方案也有很多,不过原理大同小异。1.1 简单滑动验证码目标网址:https://member.zjtcn.com/common/login.html一般来说我们与页面的交互可以使用Webelement的方法来进行点击等操作。但是,有时候我
2020-12-21 13:42:57 749
原创 字体反扒
字体反扒认识字体在爬虫爬取页面的时候,页面中的代码是乱码,但是在人眼看到的是原文,这样的映射关系让爬虫无法顺利爬取到网站内容。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qLirrYns-1601297485829)(assets/640-1575274230636.png)]**1.文字的外在形式特征。**就是文字的风格,是文字的外衣。 字体的艺术性体现在其完美的外在形式与丰富的内涵之中。 字体是文化的载体,是社会的缩影。**2.微机系统的字体font。**这类
2020-12-21 13:42:44 263
原创 异步爬虫
前言:python由于GIL(全局锁)的存在,不能发挥多核的优势,其性能一直饱受诟病。然而在IO密集型的网络编程里,异步处理比同步处理能提升成百上千倍的效率,弥补了python性能方面的短板,如最新的微服务框架japronto,resquests per second可达百万级。python还有一个优势是库(第三方库)极为丰富,运用十分方便。asyncio是python3.4版本引入到标准库。python3.5又加入了async/await特性。概念在学习asyncio之前,我们先来理清楚 同步/异步
2020-12-21 13:42:15 211
原创 03 APP爬虫
APP爬虫—Fiddler的安装与使用Fiddler的简介Fiddler是位于客户端和服务器端之间的代理,也是目前最常用的抓包工具之一 。它能够记录客户端和服务器之间的所有 请求,可以针对特定的请求,分析请求数据、设置断点、调试web应用、修改请求的数据,甚至可以修改服务器返回的数据,功能非常强大,是web调试的利器。看到这么多的应用,是不是就迫不及待的想要开始你的抓包之旅呢,不要急,俗话说的好:工欲善其事,必先利其器,我们先来安装Fiddler吧。Fiddler的下载打开官网,官网下载地址是h
2020-12-21 13:41:57 297
原创 scrapy框架
初识 scrapyScrapy是一个使用Python语言(基于Twisted框架)编写的开源网络爬虫框架,目前由Scrapinghub Ltd维护。Scrapy简单易用、灵活易拓展、开发社区活跃,并且是跨平台的。在Linux、 MaxOS以及Windows平台都可以使用。1. Scrapy 简介1.1 网络爬虫网络爬虫是指在互联网上自动爬取网站内容信息的程序,也被称作网络蜘蛛或网络机器人。大型的爬虫程序被广泛应用于搜索引擎、数据挖掘等领域,个人用户或企业也可以利用爬虫收集对自身有价值的数据。一个网
2020-12-21 13:41:23 444
原创 Selenium自动化
Selenium一.Selenium定义:Selenium 是一个 Web 的自动化测试工具,最初是为网站自动化测试而开发的,就像玩游戏用的按键精灵,可以按指定的命令自动操作。Selenium 测试工具直接操控浏览器中,就像真正的用户在操作一样。Selenium 可以根据的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生二.Selenium工作原理三.Selenium配置Selenium 支持多种浏览器,最常见的就是 火狐 和 谷歌 浏览器。首先在电脑上下
2020-12-21 13:40:17 747
原创 python爬取lol所有英雄皮肤和英雄的语音包
打开wegame想来把lol的阿卡丽,之前因为the thy 才喜欢上玩这个人物,忽然发现wegame跳出一个页面,我记得以前一直没有,估计是更新了吧 看到时间我惊呆了,没想到lol陪伴了我这么久了,1848天了,大概5年了,忽然想起了渣渣辉了,哈哈,看到里面的英雄一个个那么熟悉还有那绚丽的皮肤,有很多已经下线了,所以我就写了一个脚本,爬取所有的皮肤图片保存起来,顺便还爬取了每个英雄的语音包,哈哈,算是意外收获了皮肤: 每个英雄的皮肤都保存在一个文件夹,然后把所有的文...
2020-08-13 12:42:24 1791 3
原创 爬取某视频网上的所有搞笑视频,喜欢做视频的小伙伴就有素材了
闲的无聊,爬取了某视频网的所有搞笑视频,并且整理了每个视频的名字和地址放在了一个txt文本中,因为只是娱乐的操作,考虑到对方服务器的负荷,就只爬取了10页的内容,这样如果喜欢做视频的下伙伴就有素材了网页是动态的,所以获取的是json数据,然后再细处理话不多说,代码如下;import requestsimport pprintimport osif not os.path.exists('视频文件夹'): os.makedirs('视频文件夹')url = '...
2020-08-05 15:17:36 2708
原创 爬取表情包-1分钟爬取1000多张图,斗图不在怕-(原创)
有时候和别人聊天,别人有一大堆的图向你仍来,自己却没有可以回应的表情包,所以写了一个爬取网页表情包的代码,一分钟爬取1000+张,多的不知道该用哪一张了,哈哈,再也不怕斗图了需要的工具:python3版本以上一个编辑器建议:pycharm第三方库:request os re还要一个会粘贴复制而手话不多说,代码在下面,需要的小伙伴拿去用吧# 第三方库引用import requestsimport reimport os# 创建文件if not os...
2020-08-04 13:24:17 916 2
原创 爬取小说案例-斗破苍穹(原创)
有时候看小说还要在网页看,下载还要付费,所以我用python直接下载好文件,传在手机就可以看,非常的方便,所以我就拿大家比较熟知的电子书斗破苍穹为例子提供大家参考这个操作需要的工具:python3版本以上一个编辑器建议:pycharm第三方库:request os re还要一个会粘贴复制而手话不多说,代码在下面,需要的小伙伴拿去用吧# 第三方库引用import requestsimport reimport osimport time# 数据存放目录 ...
2020-08-04 13:09:21 464
转载 python 贪吃蛇(源代码)
#话不多说,直接上代码,有需要的小伙伴可以直接拿去用import pygameimport randomimport sysimport timefrom pygame.locals import * # 从pygame模块导入常用的函数和常量# 定义颜色变量black_colour = pygame.Color(0, 0, 0)white_colour = pygame.Color(255, 255, 255)red_colour = pygame.Color(255, 0, 0.
2020-07-20 19:59:34 2109
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人