爬虫
文章平均质量分 51
爱笑的光头强
崇尚自由
展开
-
爬虫里我们常说的 ‘风控’ 到底是个什么东西
以前看无能力大佬总说风控,我也一直不明白,今天在穿甲兵社区看到了某位大佬的回复,才明白风控到底什么意思原话:风控听起来有点虚,换个方式讲可能清晰一点,你可以粗略地理解为反欺诈的技术手段。互联网领域中广义的欺诈指的是刷单、恶意注册、伪造账户参与活动等等,反欺诈就是反这些;爬虫领域的反欺诈(这里对应你提到的风控),就是针对爬虫特征设计的一些技术手段。 风控流程大体是这样的:获取终端(账户信息/IP/网页指纹/安卓指纹/某个设定的值(例如 _sign=ejy092jhi))特征和行为信息(例如请求频次/请求路径原创 2021-10-09 13:24:15 · 3372 阅读 · 1 评论 -
python AES加密使用CBC模式
from Crypto.Cipher import AESclass PrpCrypt(object): # 密钥(key), 密斯偏移量(iv) CBC模式加密 备注:保证key和iv必须是16位 def __init__(self, key): self.key = key.encode('utf-8') self.mode = AES.MODE_CBC self.iv = '偏移量'.encode('utf-8') def原创 2021-08-20 13:46:23 · 3728 阅读 · 1 评论 -
酷狗音乐榜单歌曲获取解析教程
1.确定要爬取的音乐就是这里的所有榜单(我以其中一个榜单进行分析,因为逻辑都是一样的)2 .随机挑选一首歌曲点进去,查找歌曲地址分析了好几个地址看不出来有什么规律,所以我就猜想这个地址是不是别的url返回的数据复制地址进行全剧搜索,果不其然,我猜对了3.请求几首歌曲分析这个地址有何改变4.解密变化的参数_很容易看出 是时间戳 album_id 这应该是歌曲id 我们去网页里面去找,hash目前还不知道是什么,我们先找歌曲id这样我们所有的参数就都知道了,可以进行编写代码请求了,原创 2021-08-13 10:14:42 · 5420 阅读 · 0 评论 -
js逆向之爬取网易云音乐和歌曲评论
前面我写的文章当中也有网易云音乐的爬取,只不过是借助了外链接口,本篇文章将介绍网易本身的接口进行爬取**1 . 我们要获取的内容**某一个歌单里面的所有歌曲**2. 我们先分析一下歌曲的真实地址吧**通过抓包我们成功的找到了歌曲的真实地址,在浏览器中打开证明是对的通过经验分析,歌曲真实地址肯定是别的请求返回的,我们找一下它的父请求3. 查找歌曲真实地址的父请求父请求已经找到,接下来我们看一下请求参数吧**4.解密加密参数**可以看到就只有两个参数 params enc原创 2021-08-05 10:40:02 · 2696 阅读 · 2 评论 -
js逆向-新榜资讯
需要用到的模块:···requests···execjs···csv**1,我们要获取的数据是,标题,简介,来源,时间,**对于右边的抖音资讯要用的加密参数是一样的 只需要改一下链接就行 ,这里就不说它了。**2 ,找到数据来源**数据我们已经找到,接下来查看请求参数,有哪些是固定值,那些是变化的keyword:是你搜索的关键字,如果不进行搜索,就是空pageNumber:页数pageSize:一页的数据量nonce:变化的(需要破解的参数)xyz:变化的(需要破解的原创 2021-08-04 10:23:49 · 2073 阅读 · 1 评论 -
适合新手学习js加密技术-千千音乐爬取
昨天刚写完某狗音乐的爬取,然而我的野心绝不止于在此,所以今天我又搞了某千音乐,某千音乐总体来说是比某狗音乐难一点,有一个加密的签名sign,但是也难逃我的法眼,奥利给我是按照歌手为分类爬取的,正常思路是 歌手信息–>歌单信息–>每一首歌的信息–>歌曲的真实播放地址但是我今天的思路是不正常的,但是我感觉挺正常的(哈哈哈)我的思路 歌曲真实播放地址–>每首歌的信息–>歌单信息–>歌手信息,其实我这个思路对于音乐网站来说是正确的 ,也是我爬了这么多(某易云,某q,酷我,原创 2021-07-30 15:42:23 · 2492 阅读 · 0 评论 -
Glidedsky字体反爬2
上一篇文章我们说了下字体反爬1的解决思路,今天我们说下字体反爬2的思路,其实都差不多的,我个人感觉字体反爬思路都差不多,只是一些细节上有一些差异,看网站介绍也是分成了1000页数据(这个平台的数据都是分成1000页)查看源码这个加密后和页面显示的数据都挺有意思获取字体文件并查看字体文件里面的内容很多,其实我们用到的只有钱10个数字分析字体文件和网页数据查找规律我也想了好久,源码里面是汉字,是怎么和字体文件里面的 ‘map code=“0x6ee9” name=原创 2021-07-07 11:26:24 · 2419 阅读 · 0 评论 -
GlidedSky 字体反爬1
我呢最近喜欢研究字体反爬 ,我知道的字体反爬网站我都研究过了(大部分都做出来了),其中就包括Glidedsky这个平台的我们看下介绍数据一共是分成了1000个页面查看源码查找字体文件并查看查找规律通过上图是不是就已经知道怎么做了,这题还是很简单的应于网站要求,这里只说思路,不提供代码每次请求的字体文件都不一样,是动态变化的,所以字体文件用一次就废了1、访问页面,获取加密数据。2、下载字体文件。3、查看字体文件。4、根据字体文件得出的规则,构建关系映射。5、替换掉加密原创 2021-07-07 10:46:35 · 2516 阅读 · 0 评论 -
猿人学web端爬虫攻防平台第七题动态字体
本人呢很喜欢爬虫,但是技术不好,所以呢就一直慢慢的摸索着,也不知道那什么练手进行学习,直到我在偶然的机会接触到了猿人学,发现了 猿人学web端爬虫攻防平台这个网站,久旱逢甘霖,他乡遇故知呀(蹩脚的词语)也让我的爬虫技术有了很大的提升,今天呢我就说一下第七题,字体反爬(其他的题目我也有做,有时间也都会发表一下思路)爬取的网站猿人学web端爬虫攻防平台第七题动态字体查看数据来源和加密方式这就很方便了,数据和字体文件都在一起,多次请求观察字体文件,可以看出文字都是一样的,只是顺序不一样,对应的na原创 2021-07-01 14:15:53 · 2765 阅读 · 0 评论 -
中国供应商字体反爬
我也不知道该怎么介绍这个网站,想不出来开场白,那就直奔主题吧要爬取的网站和信息中国供应商某个商品的商家电话查看电话信息是否加密不出意外是加密的,还判定是字体加密,那么就是常规思路了获取加密字体并查看规律保存为woff格式后进行查看文字内容都是一样的 只是顺序不一样,是动态的4. 查找相同点,构造映射关系根据一个字体文件的这些数据的md5值进行构造字典font_dict = { '0072296251cdc1cf39f36bfe71030516':1, 'a原创 2021-07-01 13:39:59 · 2743 阅读 · 4 评论 -
起点中文网字体反爬
我记得我上初中的时候就特别爱看小说(因为没有手机,只能看小说)特别是那种10块钱一大本,好几百页的那种,一页一页的撕下来看,在班级里几乎每人手里都有几页小说(很喜欢学习,不看小说的除外)不说了不说了,都是陈年往事,现在我也大学毕业了,也不怎么看小说了(除非遇见自己很喜欢的那种类型),不得不说小说很让人着迷,那么咱就聊聊小说,起点中文网应该是最大的小说的网站了吧,看一下上面小说的信息爬取的网页起点中文网查看数据获取加密文件并查看多次请求后得到的字体文件里面的文字和顺序都是一样的 通原创 2021-06-30 14:41:28 · 5099 阅读 · 1 评论 -
猫眼榜单字体反爬
现在小年轻都喜欢去影院看电影,但是不知道哪些好看哪些不好看,猫眼国内知名电影平台,看上面的电影评分就知道好不好看了,身为程序员呢,肯能不能在网站上看呀 ,咱的爬下来看,哈哈哈哈爬取的网页查找加密文件可以看到字体文件文字内容和顺序都是一样的,这就很简单了 ,我们只需要在每次请求的时候解析出name的值就行了这个很简单,直接上代码# -*- coding: utf-8 -*-import refrom fontTools.ttLib import TTFontimport reque原创 2021-06-30 14:17:05 · 176 阅读 · 0 评论 -
汽车之家汽车详细参数之css反爬
嘿哈,本人呢也很喜欢车,只不过买不起,哈哈哈 穷人一个 我呢就经常去汽车之家看一看我喜欢的那些车,看看配置啥的,有一天我就想吧这些数据都爬下来(手痒痒了啥都想爬一下,哈哈)就开始了我的掉头发之旅确定要爬的网页奔驰s级参数配置表汽车之家很是很良心的 ,给你做了很详细的配置对比查看数据加密方式css加密(仅限本网站)其实不是css文件搞得鬼,是一段js,首先找到js数据用正则吧数据取出来(不止一段js)js_list = re.findall('(\(function\([a-zA-Z原创 2021-06-30 11:07:49 · 3416 阅读 · 4 评论 -
汽车之家论坛字体反爬
当今社会基本每家每户都有车吧,基本都会去汽车之家查看车的详细参数(css反爬,下一篇文章会介绍),去汽车之家的论坛发表一些意见或看一下别人的意见啥的(字体反爬),那么我们今天就来看看汽车之家论坛的字体反爬又有什么稀奇古怪的呢(汽车之家是最早在网站使用字体反爬的)确定要爬取的页面高速停车摘野果,六安高速交警迅速查处消隐患既然都确定是字体反爬了,那我们就直接找字体文件吧按照正常思路就是把字体文件下载下来进行查看了每次请求的字体文件里面的文字都是一样的,顺序不一样,和文字对应的name值也不一原创 2021-06-30 10:15:05 · 3589 阅读 · 3 评论 -
实习僧字体反爬
大学实习或刚大学毕业的时候肯定对工作很着急,相信不少的同学都在实习僧这个平台找到了一份适合的工作,身为爬虫爱好者肯定要研究一下这个网站呀,看看有没有啥反爬,我最开始发现的就是字体反爬,那么咱就说说实习僧的字体反爬吧。首先 确定要爬取的页面(就是岗位详细信息)不需要登陆就能查看查看源码 看一下数据有没有被加密(就是有没有字体反爬)查找字体加密文件(无非就是两种 1,一长串base64加密后的字符串,2,字体文件地址)本网站属于第一种用正则 获取字体文件数据写入到woff文件中,并原创 2021-06-30 09:26:50 · 2929 阅读 · 2 评论