自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

转载 做爬虫怎可不知反爬虫?如何做反反爬虫

什么是反爬虫反爬虫的原因爬虫占总PV(PV是指页面的访问次数,每打开或刷新一次页面,就算做一个pv)比例较高,服务器的压力上升,能力下降。2018年2月24日晚,卓见云某客户网站公网出流量突然爆发性增长,导致带宽被占满,事故发现后紧急提升了SLB的带宽,但提升后的带宽仍然被流量占满(原带宽15M,提升至35M)。由于事故发生在非黄金访问时段,正常流量不会这么大,加上其他现象,怀疑是遭到了网络攻击。再比如某节某动为了快速发展搜索业务派出爬虫四处暴力抓取网站内容,部分配置较低的网站已经直接瘫痪,给中小网

2022-02-08 11:30:55 333

转载 有哪些有趣的反爬虫机制吗?

即供参考:1。header 检验最简单的反爬机制,就是检查 HTTP 请求的 Headers 信息,包括 User-Agent, Referer、Cookies 等。2。User-AgentUser-Agent 是检查用户所用客户端的种类和版本,在 Scrapy 中,通常是在下载器中间件中进行处理。比如在 setting.py 中建立一个包含很多浏览器 User-Agent 的列表,然后新建一个 random_user_agent 文件:classRandomUserAgentMiddl

2022-02-07 15:42:56 175

转载 面对爬虫,反爬虫能如何呢

随着大数据的火热,网页数据成了大家争相掠夺的资源,大量的爬虫蜂拥而来,谁能第一时间掌握数据就等于掌握了先机。网站运营者则需要反爬虫系统来保护自己的数据资源,以此达到系统稳定性的保障和竞争优势保持的目的。为什么反爬为了更好的理解爬虫和反爬虫,我们来看一些定义:爬虫:使用任何技术手段,批量获取网站信息的一种方式。关键在于批量。反爬虫:使用任何技术手段,阻止别人批量获取自己网站信息的一种方式。关键也在于批量。误伤:在反爬虫的过程中,错误的将普通用户识别为爬虫。误伤率高的反爬虫策略,效果再好

2022-02-07 15:38:26 178

转载 有效突破反爬虫的方法

由于现在许多企业都需要大量的数据,所以很多人学习爬虫,爬虫过程中会遇到反爬阻碍,不仅会影响服务器,另外也造成一定的竞争,那么爬虫怎么突破反爬虫?与IPIDEA一起去了解一下应对反爬虫的一些技巧。控制下载频率大规模集中访问对服务器的影响较大,爬虫可以短时间增大服务器负载。这里需要注意的是:设定下载等待时间的范围控制,等待时间过长,不能满足短时间大规模抓取的要求,等待时间过短则很有可能被拒绝访问。在之前“从url获取HTML”的方法里,对于httpGet的配置设置了socket超时和连接connect超时,

2022-02-07 15:20:51 481

转载 python 爬虫 blessing skin 的简单爬取

用 requests 来爬取 mc 著名皮肤网站 blessing skinblessing skin 网站介绍:blessing skin 网址为 skin.prinzeugen.net/ 是深受 mc 玩家喜爱的皮肤网站。它有着比之前我们爬取过的 little skin 还多的皮肤。需要准备的东西python 解释器爬虫库 requests爬取 blessing skin 的思路:通过 skin.prinzeugen.net/skinlib/show/ + 皮肤号码的形式获得到皮肤的网址。

2022-01-28 15:56:01 1880

转载 常见的反爬虫和应对方法

0x01 常见的反爬虫这几天在爬一个网站,网站做了很多反爬虫工作,爬起来有些艰难,花了一些时间才绕过反爬虫。在这里把我写爬虫以来遇到的各种反爬虫策略和应对的方法总结一下。从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。这里我们只讨论数据采集部分。一般网站从三个方面反爬虫:用户请求的Headers,用户行为,网站目录和数据加载方式。前两种比较容易遇到,大多数网站都从这些角度来反爬虫。第三种一些应用ajax的网站会采用,这样增大了爬取的难度。0x02 通过Headers反爬虫从用户请

2022-01-27 15:01:28 481

转载 那些你不知道的爬虫反爬虫套路

前言爬虫与反爬虫,是一个很不阳光的行业。这里说的不阳光,有两个含义。第一是,这个行业是隐藏在地下的,一般很少被曝光出来。很多公司对外都不会宣称自己有爬虫团队,甚至隐瞒自己有反爬虫团队的事实。这可能是出于公司战略角度来看的,与技术无关。第二是,这个行业并不是一个很积极向上的行业。很多人在这个行业摸爬滚打了多年,积攒了大量的经验,但是悲哀的发现,这些经验很难兑换成闪光的简历。面试的时候,因为双方爬虫理念或者反爬虫理念不同,也很可能互不认可,影响自己的求职之路。本来程序员就有“文人相轻”的倾向,何

2022-01-26 11:16:47 212

原创 Python 开发神技 -- 使用管道 Pipe

众所周知,Pytnon 非常擅长处理数据,尤其是后期数据的清洗工作。今天派森酱就给大家介绍一款处理数据的神器 Pipe。什么是 Pipe简言之,Pipe 是 Python 的一个三方库。通过 Pipe 我们可以将一个函数的处理结果传递给另外一个函数,这意味着你的代码会非常简洁。要使用 Pipe 需要提前安装,直接使用 pip 安装即可。过滤元素和 filter 类似,pipe 中的 where 操作可以过滤可迭代对象中的元素。作用元素类似 map,select 操作可

2022-01-12 11:34:29 1324

原创 70个Python练手项目列表,偷偷练习卷死他们,得不到的永远在骚动

这里整理了70个Python实战项目列表,都有完整且详细的教程,你可以从中选择自己想做的项目进行参考学习练手,你也可以从中寻找灵感去做自己的项目。70个python练手项目列表:1、【Python 图片转字符画】2、【200行Python代码实现2048】3、【Python3 实现火车票查询工具】4、【高德API+Python解决租房问题】5、【Python3色情图片识别】6、【Python 破解验证码】7、【Python实现简单的Web服务器】8、【pygame开发打飞机游戏】9、【D

2022-01-12 10:38:25 687

原创 python 接口测试 unittest 使用详解

unittest 框架解析unittest 是 python 的单元测试框架,unittest 单元测试提供了创建测试用例,测试套件以及批量执行的方案, unittest 在安装 pyhton 以后就直接自带了,直接 import unittest 就可以使用。打开 pycharm,引入 unittest 包,requests 包接着调用 unittest#使用 unittest 中的 setUp 方法,这个 unittest 的前置条件我们可以在这个里面编写登录等需要获取 cooki..

2022-01-11 10:36:46 481

原创 Python垃圾回收

垃圾回收 我们作为Python程序员也是非常幸福的,我们日常不太需要关注内存管理和垃圾回收,是因为CPython的解释器有一套自己的机制来处理。那么,在Python的世界里为什么不太需要关注垃圾回收呢?这是因为Python自己的解释器自动做了垃圾回收相应的处理,在绝大部分场景下是不需要人为的干涉的。另外,大家对于Python的共识就是开发效率。因为其是一个胶水语言,在很多场景下高性能以及内存问题其实并不凸显,而且现在服务器资源很便宜而人力资源很贵的情况下。使用Python做Web开发,工作很..

2022-01-10 11:00:24 318

原创 用Python写了一个图像文字识别OCR工具

最近在技术交流群里聊到一个关于图像文字识别的需求,在工作、生活中常常会用到,比如票据、漫画、扫描件、照片的文本提取。博主基于 PyQt + labelme + PaddleOCR 写了一个桌面端的OCR工具,用于快速实现图片中文本区域自动检测+文本自动识别。识别效果如下图所示:所有框选区域为OCR算法自动检测,右侧列表有每个框对应的文字内容;点击右侧“识别结果”中的文本记录,然后点击“复制到剪贴板”即可复制该文本内容。功能列表 文本区域检测+文字识别 文.

2022-01-07 10:08:31 282

原创 11个好用到起飞的「Python字典」知识点

字典是否是无序的关于这个概念,很多朋友不一定清楚。在 Python 2.7 中,字典是无序结构。字典项目的顺序是混乱的。这意味着项目的顺序是确定性和可重复的。>>>#Python2.7>>>a_dict={'color':'blue','fruit':'apple','pet':'dog'}>>> a_dict{'color':'blue','pet':'dog','fruit':'apple'}&g...

2022-01-05 16:45:15 71

原创 18 个 Python 高效编程小技巧。

01 交换变量这个情况如果要交换变量在c++中,肯定需要一个空变量。但是python不需要,只需一行,大家看清楚了02 字典推导(Dictionary comprehensions)和集合推导(Set comprehensions)大多数的Python程序员都知道且使用过列表推导(list comprehensions)。如果你对list comprehensions概念不是很熟悉——一个list comprehension就是一个更简短、简洁的创建一个list的方法。自从py...

2021-12-31 14:11:50 100

原创 非常实用的 Python 库

Python 是一个很棒的语言。它是世界上发展最快的编程语言之一。它一次又一次地证明了在开发人员职位中和跨行业的数据科学职位中的实用性。整个 Python 及其库的生态系统使它成为全世界用户(初学者和高级用户)的合适选择。它的成功和流行的原因之一是它强大的第三方库的集合,这些库使它可以保持活力和高效。在本文中,我们会研究一些用于数据科学任务的 Python 库,而不是常见的比如 panda、scikit-learn 和 matplotlib 等的库。尽管像 panda 和 scikit-learn 这样

2021-12-29 11:33:11 167

原创 17个常见的Python运行时错误,你中招了没?

对于刚入门的Pythoner在学习过程中运行代码是或多或少会遇到一些错误,刚开始可能看起来比较费劲。随着代码量的积累,熟能生巧当遇到一些运行时错误时能够很快的定位问题原题。下面整理了常见的17个错误,希望能够帮助到大家。1、忘记在if,for,def,elif,else,class等声明末尾加 :会导致“SyntaxError :invalid syntax”如下:2、使用= 而不是 ==也会导致“SyntaxError: invalid syntax”= 是赋值操作符而

2021-12-29 10:06:22 96

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除