自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

shiguanggege的博客

一个爬虫小白的成长历程

  • 博客(73)
  • 收藏
  • 关注

原创 python发送多个邮件附件给多人

【代码】python发送多个邮件附件给多人。

2024-05-17 09:26:03 62

转载 win虚拟键码

下表显示了系统使用的虚拟键代码的符号常量名称、十六进制值和鼠标或键盘等效项。代码按数字顺序列出。VK_XBUTTON1 0x05 X1 鼠标按钮。VK_XBUTTON2 0x06 X2 鼠标按钮。VK_CANCEL 0x03 控制中断处理。VK_LBUTTON 0x01 鼠标左键。VK_RBUTTON 0x02 鼠标右键。VK_MBUTTON 0x04 鼠标中键。常数 Value 说明。

2023-11-30 11:10:23 339

转载 Python进行 sftp上传下载

原文链接:https://blog.csdn.net/u011008832/article/details/127557681。1、Python进行 sftp上传下载。3、python本地文件夹检测和创建。2、sftp远程目录检测+创建。

2023-05-11 14:35:28 559

转载 Python 连接 ftp 服务器操作

Python 连接 ftp 服务器操作。

2023-05-11 10:22:30 1994

原创 爬虫里我们常说的 ‘风控’ 到底是个什么东西

以前看无能力大佬总说风控,我也一直不明白,今天在穿甲兵社区看到了某位大佬的回复,才明白风控到底什么意思原话:风控听起来有点虚,换个方式讲可能清晰一点,你可以粗略地理解为反欺诈的技术手段。互联网领域中广义的欺诈指的是刷单、恶意注册、伪造账户参与活动等等,反欺诈就是反这些;爬虫领域的反欺诈(这里对应你提到的风控),就是针对爬虫特征设计的一些技术手段。 风控流程大体是这样的:获取终端(账户信息/IP/网页指纹/安卓指纹/某个设定的值(例如 _sign=ejy092jhi))特征和行为信息(例如请求频次/请求路径

2021-10-09 13:24:15 3297 1

原创 python AES加密使用CBC模式

from Crypto.Cipher import AESclass PrpCrypt(object): # 密钥(key), 密斯偏移量(iv) CBC模式加密 备注:保证key和iv必须是16位 def __init__(self, key): self.key = key.encode('utf-8') self.mode = AES.MODE_CBC self.iv = '偏移量'.encode('utf-8') def

2021-08-20 13:46:23 3680 1

原创 酷狗音乐榜单歌曲获取解析教程

1.确定要爬取的音乐就是这里的所有榜单(我以其中一个榜单进行分析,因为逻辑都是一样的)2 .随机挑选一首歌曲点进去,查找歌曲地址分析了好几个地址看不出来有什么规律,所以我就猜想这个地址是不是别的url返回的数据复制地址进行全剧搜索,果不其然,我猜对了3.请求几首歌曲分析这个地址有何改变4.解密变化的参数_很容易看出 是时间戳 album_id 这应该是歌曲id 我们去网页里面去找,hash目前还不知道是什么,我们先找歌曲id这样我们所有的参数就都知道了,可以进行编写代码请求了,

2021-08-13 10:14:42 5333

原创 js逆向之爬取网易云音乐和歌曲评论

前面我写的文章当中也有网易云音乐的爬取,只不过是借助了外链接口,本篇文章将介绍网易本身的接口进行爬取**1 . 我们要获取的内容**某一个歌单里面的所有歌曲**2. 我们先分析一下歌曲的真实地址吧**通过抓包我们成功的找到了歌曲的真实地址,在浏览器中打开证明是对的通过经验分析,歌曲真实地址肯定是别的请求返回的,我们找一下它的父请求3. 查找歌曲真实地址的父请求父请求已经找到,接下来我们看一下请求参数吧**4.解密加密参数**可以看到就只有两个参数 params enc

2021-08-05 10:40:02 2662 2

原创 js逆向-新榜资讯

需要用到的模块:···requests···execjs···csv**1,我们要获取的数据是,标题,简介,来源,时间,**对于右边的抖音资讯要用的加密参数是一样的 只需要改一下链接就行 ,这里就不说它了。**2 ,找到数据来源**数据我们已经找到,接下来查看请求参数,有哪些是固定值,那些是变化的keyword:是你搜索的关键字,如果不进行搜索,就是空pageNumber:页数pageSize:一页的数据量nonce:变化的(需要破解的参数)xyz:变化的(需要破解的

2021-08-04 10:23:49 2070 1

原创 适合新手学习js加密技术-千千音乐爬取

昨天刚写完某狗音乐的爬取,然而我的野心绝不止于在此,所以今天我又搞了某千音乐,某千音乐总体来说是比某狗音乐难一点,有一个加密的签名sign,但是也难逃我的法眼,奥利给我是按照歌手为分类爬取的,正常思路是 歌手信息–>歌单信息–>每一首歌的信息–>歌曲的真实播放地址但是我今天的思路是不正常的,但是我感觉挺正常的(哈哈哈)我的思路 歌曲真实播放地址–>每首歌的信息–>歌单信息–>歌手信息,其实我这个思路对于音乐网站来说是正确的 ,也是我爬了这么多(某易云,某q,酷我,

2021-07-30 15:42:23 2483

原创 Glidedsky字体反爬2

上一篇文章我们说了下字体反爬1的解决思路,今天我们说下字体反爬2的思路,其实都差不多的,我个人感觉字体反爬思路都差不多,只是一些细节上有一些差异,看网站介绍也是分成了1000页数据(这个平台的数据都是分成1000页)查看源码这个加密后和页面显示的数据都挺有意思获取字体文件并查看字体文件里面的内容很多,其实我们用到的只有钱10个数字分析字体文件和网页数据查找规律我也想了好久,源码里面是汉字,是怎么和字体文件里面的 ‘map code=“0x6ee9” name=

2021-07-07 11:26:24 2418

原创 GlidedSky 字体反爬1

我呢最近喜欢研究字体反爬 ,我知道的字体反爬网站我都研究过了(大部分都做出来了),其中就包括Glidedsky这个平台的我们看下介绍数据一共是分成了1000个页面查看源码查找字体文件并查看查找规律通过上图是不是就已经知道怎么做了,这题还是很简单的应于网站要求,这里只说思路,不提供代码每次请求的字体文件都不一样,是动态变化的,所以字体文件用一次就废了1、访问页面,获取加密数据。2、下载字体文件。3、查看字体文件。4、根据字体文件得出的规则,构建关系映射。5、替换掉加密

2021-07-07 10:46:35 2514

原创 猿人学web端爬虫攻防平台第七题动态字体

本人呢很喜欢爬虫,但是技术不好,所以呢就一直慢慢的摸索着,也不知道那什么练手进行学习,直到我在偶然的机会接触到了猿人学,发现了 猿人学web端爬虫攻防平台这个网站,久旱逢甘霖,他乡遇故知呀(蹩脚的词语)也让我的爬虫技术有了很大的提升,今天呢我就说一下第七题,字体反爬(其他的题目我也有做,有时间也都会发表一下思路)爬取的网站猿人学web端爬虫攻防平台第七题动态字体查看数据来源和加密方式这就很方便了,数据和字体文件都在一起,多次请求观察字体文件,可以看出文字都是一样的,只是顺序不一样,对应的na

2021-07-01 14:15:53 2749

原创 中国供应商字体反爬

我也不知道该怎么介绍这个网站,想不出来开场白,那就直奔主题吧要爬取的网站和信息中国供应商某个商品的商家电话查看电话信息是否加密不出意外是加密的,还判定是字体加密,那么就是常规思路了获取加密字体并查看规律保存为woff格式后进行查看文字内容都是一样的 只是顺序不一样,是动态的4. 查找相同点,构造映射关系根据一个字体文件的这些数据的md5值进行构造字典font_dict = { '0072296251cdc1cf39f36bfe71030516':1, 'a

2021-07-01 13:39:59 2737 4

原创 起点中文网字体反爬

我记得我上初中的时候就特别爱看小说(因为没有手机,只能看小说)特别是那种10块钱一大本,好几百页的那种,一页一页的撕下来看,在班级里几乎每人手里都有几页小说(很喜欢学习,不看小说的除外)不说了不说了,都是陈年往事,现在我也大学毕业了,也不怎么看小说了(除非遇见自己很喜欢的那种类型),不得不说小说很让人着迷,那么咱就聊聊小说,起点中文网应该是最大的小说的网站了吧,看一下上面小说的信息爬取的网页起点中文网查看数据获取加密文件并查看多次请求后得到的字体文件里面的文字和顺序都是一样的 通

2021-06-30 14:41:28 5005 1

原创 猫眼榜单字体反爬

现在小年轻都喜欢去影院看电影,但是不知道哪些好看哪些不好看,猫眼国内知名电影平台,看上面的电影评分就知道好不好看了,身为程序员呢,肯能不能在网站上看呀 ,咱的爬下来看,哈哈哈哈爬取的网页查找加密文件可以看到字体文件文字内容和顺序都是一样的,这就很简单了 ,我们只需要在每次请求的时候解析出name的值就行了这个很简单,直接上代码# -*- coding: utf-8 -*-import refrom fontTools.ttLib import TTFontimport reque

2021-06-30 14:17:05 176

原创 汽车之家汽车详细参数之css反爬

嘿哈,本人呢也很喜欢车,只不过买不起,哈哈哈 穷人一个 我呢就经常去汽车之家看一看我喜欢的那些车,看看配置啥的,有一天我就想吧这些数据都爬下来(手痒痒了啥都想爬一下,哈哈)就开始了我的掉头发之旅确定要爬的网页奔驰s级参数配置表汽车之家很是很良心的 ,给你做了很详细的配置对比查看数据加密方式css加密(仅限本网站)其实不是css文件搞得鬼,是一段js,首先找到js数据用正则吧数据取出来(不止一段js)js_list = re.findall('(\(function\([a-zA-Z

2021-06-30 11:07:49 3353 4

原创 汽车之家论坛字体反爬

当今社会基本每家每户都有车吧,基本都会去汽车之家查看车的详细参数(css反爬,下一篇文章会介绍),去汽车之家的论坛发表一些意见或看一下别人的意见啥的(字体反爬),那么我们今天就来看看汽车之家论坛的字体反爬又有什么稀奇古怪的呢(汽车之家是最早在网站使用字体反爬的)确定要爬取的页面高速停车摘野果,六安高速交警迅速查处消隐患既然都确定是字体反爬了,那我们就直接找字体文件吧按照正常思路就是把字体文件下载下来进行查看了每次请求的字体文件里面的文字都是一样的,顺序不一样,和文字对应的name值也不一

2021-06-30 10:15:05 3557 3

原创 实习僧字体反爬

大学实习或刚大学毕业的时候肯定对工作很着急,相信不少的同学都在实习僧这个平台找到了一份适合的工作,身为爬虫爱好者肯定要研究一下这个网站呀,看看有没有啥反爬,我最开始发现的就是字体反爬,那么咱就说说实习僧的字体反爬吧。首先 确定要爬取的页面(就是岗位详细信息)不需要登陆就能查看查看源码 看一下数据有没有被加密(就是有没有字体反爬)查找字体加密文件(无非就是两种 1,一长串base64加密后的字符串,2,字体文件地址)本网站属于第一种用正则 获取字体文件数据写入到woff文件中,并

2021-06-30 09:26:50 2921 2

原创 大众点评字体反爬

脑壳疼了两天 终于搞出来了,大众点评太狗了吧 好几种类型的字体反爬(吐槽一下,求求你们别写反爬了,给我们这些喜欢爬虫的人留点活路吧)有想知道是怎么解决的私聊我,代码就不放了...

2021-06-18 15:51:42 2959 3

原创 爬取自如租房数据

import ioimport refrom lxml import etreeimport pytesseractfrom PIL import Imageimport requestsheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36',}#

2021-06-17 14:45:37 3275 1

原创 秒杀所有字体反爬

1,首先安装Python类库安装支持Python版本的Tesseract库:安装方式如下:pip install pytesseract2,安装Tesseract-OCR下载地址:https://digi.bib.uni-mannheim.de/tesseract/3,3,设置环境变量。需要添加俩个环境变量1,path中添加C:\ProgramFiles(x86)\Tesseract-OCR(安装路径)2,新建一个TESSDATA_PREFIX变量C:\ProgramFiles(x86)\

2021-04-28 09:23:03 3160 1

原创 requirements.txt的创建及使用

创建pip freeze > requirements.txt使用pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

2021-04-12 10:02:48 2660

原创 58同城字体加密-多套字体文件

历时3天(每天上午,下午需要干别的事情)终于把58同城多套字体加密搞出来了(本人菜鸟 所以搞得久了一点),有感兴趣的同学私聊我一起讨论,也可以加我微信18300485357代码就不放在这里了 字体加密重要的是思路,可以和我一起讨论...

2021-04-08 10:54:45 3466 8

原创 adb常用命令

基础命令1、adb devices 查看手机设备2、adb install packsge(包路径)安装包3、adb install -r packages(保留数据及缓存文件安装新包)4、adb uninstall package (卸载包)5、adb kill-server 关闭adb服务6、adb start-server 启动adb服务7、adb shell pm list packages 查看手机里面所有包名8、adb shell pm list packages -3查看手机里

2021-03-23 10:01:02 22797 1

原创 python破解b站验证码实现登陆

Python3爬虫实战【点触验证码】 — 模拟登陆bilibili爬虫思路如下:利用自动化爬虫工具 Selenium 模拟点击输入等操作来进行登录分析页面,获取点触验证码的点触图片,通过将图片发送给超级鹰打码平台识别后获取坐标信息根据超级鹰返回的数据,模拟坐标的点选,即可实现登录一.准备工作在开始之前,需要先注册一个超级鹰账号并申请一个软件ID,注册页面链接为:https://www.chaojiying.com/user/reg/,注册完成后需要在后台添加一个软件ID,进行充值获得积分,一般充

2021-03-16 11:18:01 5042 2

原创 python爬取网易云音乐

只需要吧这个id替换掉代码中的id就可以了# http://music.163.com/song/media/outer/url?id=为网易云的下载连接更换id即可from lxml import etreeimport requestsimport jsonfrom concurrent.futures import ThreadPoolExecutorpool = ThreadPoolExecutor(max_workers=10)headers = { "User-Age.

2021-03-10 14:07:34 6502 6

原创 python访问网页提高访问量

#CSDNimport requestsimport reimport timepayload = ""# 请求头headers = { "Accept": "*/*", "Accept-Encoding": "gzip, deflate, br", "Accept-Language": "zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3", "Cookie": "l=AurqcPuigwQdnQv7WvAfCoR1OlrRQW7h; isg

2021-03-10 08:30:12 5656 2

原创 Django+Scrapy结合使用并爬取数据入库

在django项目根目录位置创建scrapy项目,django_12是django项目,ABCkg是scrapy爬虫项目,app1是django的子应用2.在Scrapy的settings.py中加入以下代码import osimport syssys.path.append(os.path.dirname(os.path.abspath('.')))os.environ['DJANGO_SETTINGS_MODULE'] = 'django_12.settings' # 项目名.se.

2021-03-02 10:52:35 10508 4

原创 异步编程-协程

Python异步编程前言现在是 Python3.5 以后已经进入异步时代Python由于GIL(全局锁)的存在,不能发挥多核的优势,其性能一直饱受诟病。然而在IO密集型的网络编程里,异步处理比同步处理能提升成百上千倍的效率,弥补了Python性能方面的短板.python3.0时代,标准库里的异步网络模块:select(非常底层)python3.0时代,第三方异步网络库:Tornadopython3.4时代,asyncio:支持TCP,子进程.直接内置了对异步IO的支持。现有的python 异步

2021-03-02 10:49:07 7494

原创 scrapy框架之递归解析和post请求

1.递归爬取解析多页页面数据需求:将糗事百科所有页码的作者和段子内容数据进行爬取切持久化存储需求分析:每一个页面对应一个url,则scrapy工程需要对每一个页码对应的url依次发起请求,然后通过对应的解析方法进行作者和段子内容的解析。实现方案:1.将每一个页码对应的url存放到爬虫文件的起始url列表(start_urls)中。(不推荐)2.使用Request方法手动发起请求。(推荐)代码展示:# -*- coding: utf-8 -*-import scrapyfr

2021-03-02 10:44:56 7622

原创 增量式爬虫

增量式爬虫引言:当我们在浏览相关网页的时候会发现,某些网站定时会在原有网页数据的基础上更新一批数据,例如某电影网站会实时更新一批最近热门的电影。小说网站会根据作者创作的进度实时更新最新的章节数据等等。那么,类似的情景,当我们在爬虫的过程中遇到时,我们是不是需要定时更新程序以便能爬取到网站中最近更新的数据呢?一.增量式爬虫概念:通过爬虫程序监测某网站数据更新的情况,以便可以爬取到该网站更新出的新数据。如何进行增量式的爬取工作:在发送请求之前判断这个URL是不是之前爬取过在解析内容后判断这部分内

2021-03-02 10:43:18 8320

原创 scrapy抓取贝壳找房租房数据

地址:https://jn.zu.ke.com/zufang1,首先确定要爬取的数据2,查看数据来源数据直接在网页中展示,不是动态加载,也不需要cookie,更没有什么反爬(之所以写这篇文章是因为我对scrapy框架不了解,正在学习中,加深一下印象)3.找下一页的数据,寻找url规律可以看到地址https://jn.zu.ke.com/zufang/pg2/ https://jn.zu.ke.com/zufang/pg3/.。。。。。是有一定规律的#url可以这样表示start_urls

2021-03-02 10:41:25 8264 1

原创 python 执行js PyExecJS

pip install PyExecJS查看执行JS的环境print(execjs.get().name)返回值:JScriptwindows 默认执行JS的环境返回值:Node.js (V8)自己安装的NodeJS环境安装NodeJS下载: http://nodejs.cn/download/安装: https://www.runoob.com/nodejs/nodejs-install-setup.html如果下载的是zip文件,将解压出来的路径添加到环境变量中即可查看是否

2021-03-02 10:32:37 7134 2

原创 Redis常用命令

一、redis启动:本地启动:redis-cli远程启动:redis-cli -h host -p port -a passwordRedis 连接命令1 AUTH password验证密码是否正确2 ECHO message打印字符串3 PING查看服务是否运行4 QUIT关闭当前连接5 SELECT index切换到指定的数据库二、redis keys命令1、DEL keyDUMP key序列化给定的key并返回序列化的值2、EXISTS key检查给定的key是否

2021-03-02 10:28:39 7175

原创 MySQL事务

一、事务(Transaction)及其ACID属性事务是由一组SQL语句组成的逻辑处理单元,事务具有以下4个属性,通常简称为事务的ACID属性:1.原子性(Atomicity):事务是一个原子操作单元,其对数据的修改,要么全都执行,要么全都不执行。2.一致性(Consistent):在事务开始和完成时,数据都必须保持一致状态。这意味着所有相关的数据规则都必须应用于事务的修改,以保持数据的完整性;事务结束时,所有的内部数据结构(如B树索引或双向链表)也都必须是正确的。3.隔离性(Isolation):

2021-03-02 09:22:38 7075

原创 MySQL各存储引擎

MySQL中的数据用各种不同的技术存储在文件(或者内存)中。这些技术中的每一种技术都使用不同的存储机制、索引技巧、锁定水平并且最终提供广泛的不同的功能和能力。通过选择不同的技术,你能够获得额外的速度或者功能,从而改善你的应用的整体功能。这些不同的技术以及配套的相关功能在MySQL中被称作存储引擎(也称作表类型)。MySQL默认配置了许多不同的存储引擎,可以预先设置或者在MySQL服务器中启用。你可以选择适用于服务器、数据库和表格的存储引擎,以便在选择如何存储你的信息、如何检索这些信息以及你需要你的数据结合什

2021-03-01 10:01:38 7271

原创 MySQL锁详解

一、概述数据库锁定机制简单来说,就是数据库为了保证数据的一致性,而使各种共享资源在被并发访问变得有序所设计的一种规则。对于任何一种数据库来说都需要有相应的锁定机制,所以MySQL自然也不能例外。MySQL数据库由于其自身架构的特点,存在多种数据存储引擎,每种存储引擎所针对的应用场景特点都不太一样,为了满足各自特定应用场景的需求,每种存储引擎的锁定机制都是为各自所面对的特定场景而优化设计,所以各存储引擎的锁定机制也有较大区别。MySQL各存储引擎使用了三种类型(级别)的锁定机制:表级锁定,行级锁定和页级锁定

2021-03-01 09:59:31 7100

原创 mysql索引类型

一、简介MySQL目前主要有以下几种索引类型:1.普通索引2.唯一索引3.主键索引4.组合索引5.全文索引二、语句CREATE TABLE table_name[col_name data type][unique|fulltext][index|key][index_name](col_name[length])[asc|desc]1.unique|fulltext为可选参数,分别表示唯一索引、全文索引2.index和key为同义词,两者作用相同,用来指定创建索引3.col_na

2021-03-01 09:51:17 7036

原创 pycharm更换pip源

Python里的pip是官方自带的源,国内使用pip安装的时候十分缓慢,所以最好是更换成中国国内的源地址。目前国内靠谱的 pip 镜像源有:清华: https://pypi.tuna.tsinghua.edu.cn/simple豆瓣: http://pypi.douban.com/simple/阿里: http://mirrors.aliyun.com/pypi/simple/建议使用清华的,豆瓣和阿里的好像是有些问题,有些包安装不上,不是很清楚什么原因。设置方法:如果以上方法还是不可

2021-03-01 09:48:04 8200

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除