![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 66
不会翻墙的泰隆
来日方长~
展开
-
【爬虫进阶】易班登录加密逆向
demo比较简单,逆向难点:rsa加密,图片验证码。原创 2022-11-24 18:13:33 · 1176 阅读 · 1 评论 -
【爬虫进阶】猿人学任务六之回溯(难度3.0)
本文讲解猿人学web题目第6题,内容难点如下:颜文字,JSUnFuck。原创 2022-11-14 18:15:35 · 917 阅读 · 3 评论 -
【爬虫系列】用Python爬取网抑云(music)评论
本案例难度一般,需要逆向两个加密参数,对于初学者还是比较麻烦的,希望通过我的分析过程,能帮助大家快速理解!原创 2022-09-29 10:14:37 · 556 阅读 · 4 评论 -
【爬虫进阶】猿人学任务七之字体反爬(难度2.0)
往期有讲解过某团字体反爬,感觉效果不太好,所以本章重新找了个例子,希望能帮助大家理解透彻!下次遇到直接手撕。原创 2022-09-28 11:35:38 · 737 阅读 · 11 评论 -
【爬虫进阶】猿人学任务一之JS混淆(难度2.0)
你问我Js逆向是什么?请看:👇👇👇。原创 2022-09-15 17:29:24 · 480 阅读 · 8 评论 -
【爬虫系列】用Pyqt5写一个爬虫小助手
PyQt5是Digia的一套Qt5应用框架与python的结合,同时支持2.x和3.x。Qt库由Riverbank Computing开发,是最强大的GUI库之一。原创 2022-08-09 17:54:59 · 688 阅读 · 8 评论 -
【爬虫技能树】㈣、request.session()之应用场景
request.session()这个方法可以保存上次请求时的Cookie,有利于我们在登录场景中,post得到Cookie后,可直接请求网页,无需登录。Cookie:由服务器产生,浏览器收到请求后保存在本地,当再次访问时,会自动带上Cookie,这样服务器就能通过Cookie来判断用户!点关注不迷路,本文若对你有帮助,烦请三连支持一下 ❤️❤️❤️各位的支持和认可就是我最大的动力❤️❤️❤️。......原创 2022-08-03 11:27:30 · 1904 阅读 · 5 评论 -
【爬虫进阶】字体解密——案例解析
地址标签名称是address,所以打开address.woff,利用某度字体编辑器解析字体文件。发现后4位字符一致,所以这个woff文件就是这个字体的加密文件。打开网页,可以看到部分字体显示乱码,需要找到加密字体文件。全局搜索woff文件,找到目标文件,随机点开一个。打开目标源代码,可以发现上面文件中有字体css。处理编码与字体的对应关系。保存所有字体文件到本地。............原创 2022-08-01 17:30:43 · 1160 阅读 · 6 评论 -
【爬虫技能书】分享自用爬虫书籍,快进来看看!
从页面中抓取数据的三种方法,提取缓存中的数据,使用多个线程和进程来进行并发抓取,如何抓取动态页面中的内容,与表单进行交互,处理页面中的验证码问题,以及使用Scarpy和Portia来进行数据抓取,并在最后对几个真实的网站进行了抓取。书籍,以大量系统的实战项目与驱动,由浅及深的讲解爬虫中开发的知识与技能。作者理查德劳森(RichardLawson)......原创 2022-07-20 15:52:35 · 447 阅读 · 7 评论 -
【爬虫进阶】Js逆向——有道批量翻译文本
想要更进一步了解爬虫领域,学Js肯定是必不可少的,怎么说呢?现在大部分网站开始对数据层层加密,导致我们要花费大量的精力去研究,如果不了解的话,甚至连入口都找不到!这时候就会有人说用selenium不就行了,确实没问题,但是要想想效率高吗?要是10w+的数据量,那得跑多久?如果生产使用,你要怎么办?你跟老板说,机器慢我也没办法?回到主题,js逆向没有固定的方法论,所以也没有一定的解决方法,只能见招拆招点关注不迷路,本文章若对你有帮助,烦请三连支持一下❤️❤️❤️httpshttpshttps。........原创 2022-07-18 15:22:49 · 895 阅读 · 2 评论 -
【爬虫系列】Python一键获取股票数据,搭配pyecharts可视化展示
本人没事喜欢研究下理财,毕竟那点工资想实现经济自由,不太现实!基金也好,股票也罢,都具有一定的风险程序,稍有不慎,血本无归😖,大家不要轻易冒险,赚钱不易,通过此篇文章,分享一下自己平时一些研究方法目的:爬取的数据要达到什么效果?能帮助我们解决什么问题?首先需要了解一些基本的股票知识:成交量,当前成交价,换手率,涨跌幅…等等一些基本的股票数据名词,我们了解这些数据之后,是不是就明白要爬什么了,这些数据能够帮助我们快速了解一支股票的近期形式。数据平台(爬取的网站)找了很久,也是通过一些朋友推荐的一款PC也能.原创 2022-06-30 17:46:32 · 3508 阅读 · 0 评论 -
【爬虫系列】毕业季到了,用python写一个招聘爬虫
一年一度的毕业季又来了,应届生也要步入社会了,找工作当然是首当其冲的,仅以此篇软文,为广大应届生送上我一点绵薄之力!首先,我们抓取数据,要有一个方向;方向:爬什么数据?选用什么网站?爬虫过程是否便利?我们都要考虑到,这里我以广大同胞都在用的BOSS为例,各位不喜欢可以选用别的,纯属用习惯了!selenium (获取网页源代码),因为boss是有比较严格的反爬机制的,用request爬取频繁的话,是会被封禁ip的,你们有条件的,可以购买代理!BeautifulSoup(解析数据),这里为什么用bs4呢,说xp原创 2022-06-30 15:27:45 · 970 阅读 · 3 评论 -
scrapy-redis搭建分布式爬取亚马逊best排行榜
不会吧不会吧,不会还有人不会scarpy吧?抖个包袱,没有那个意思哈!!!scrapy-redis简介官方架构Slaver(从)从Master(主)拿到爬取任务(Request、url)进行数据抓取,Slaver抓取数据的同时,产生新任务的Request便提交给 Master(主) 处理Master(主)负责将未处理的Request去重和任务分配,将处理后的Request加入待爬队列,并且存储爬取的数据。scrapy-redis核心思想说白了,就是利用redis机制,实现 r原创 2022-06-11 11:50:54 · 2929 阅读 · 2 评论 -
2)速卖通商品信息采集(进阶)
最近好多小伙伴私信我要代码,因为是去年完成的,某通更改了部分结构,导致代码失效,最近花了一点时间,更新了代码!回顾前景,已经说明某通的数据是js渲染过的,但是也存放在网页源码中,转换成了json格式,我们需要通过正则来提取。两种思路:1)selenium;对速度没要求,想方便一点,推荐,直接使用xpath提取数据,但是速度较慢,不适用于爬取量过大2)request;速度快,爬取量大,就是提取数据的时候比较麻烦,要分析结构3)逆向就不推荐了,需要懂js,难度较高,有想法可以试着本地加载js渲染数据原创 2022-04-28 16:15:54 · 2075 阅读 · 2 评论 -
亚马逊评论爬虫+数据分析
爬取评论做分析首先得有数据,数据是核心,而且要准确!爬虫必要步骤,选好框架开发所需数据最后测试流程这里我所选框架是selenium+request,很多人觉得selenium慢,确实不快,仅针对此项目我做过测试,相对于request要快,要方便一些!也可以用你们熟悉的框架,用的趁手就行!安装浏览器对应webdriver版本http://npm.taobao.org/mirrors/chromedriver/获取评论数,评级数, 监控评论·亚马逊产品评论分为5个等级,从1到5原创 2021-12-27 17:05:22 · 2780 阅读 · 0 评论 -
python+selenium 亚马逊商品信息采集
小编最近因为要爬取该网站,发现之前的代码用不了!所以有了这编文章,原因是因为用requets获取的源码与网页显示不一样,只能逼着我使用selenium,通过本编文章给大家讲解一下selenium基本场景运用。照常,打开F12分析网页,获取xpath,这里提醒一下大家,最好是通过右键查看源代码来获取,检查与我们实际得到的代码还是有些不一致的!废话少说,直接上代码from selenium import webdriverfrom lxml import etreefrom selen原创 2021-08-26 17:11:14 · 730 阅读 · 0 评论 -
如何用python快速爬取速卖通商品信息
我们首先打开网页做分析按下F12点击Network找到headers,将Cookie和User-agent复制下来,留着备用!下面用requets做调式,能否获取到网页信息import requestsdef get_html(url): cookie = 'ali_apache_id=11.134.216.25.1620641275908.387521.9; cna=hyANGQQpnwUCAXFZBo1X/gL1; _bl_uid=eekXnoe0ihCgpa1FCqstxaXlI原创 2021-08-04 12:24:02 · 3220 阅读 · 5 评论 -
‘远程主机强迫关闭了一个现有的连接‘?说说这些年爬虫遇到的坑!
想要写出好的爬虫就得经历各种风雨!ConnectionResetError(10054, ‘远程主机强迫关闭了一个现有的连接。’出现以上这种现象,无非访问频次过多,导致服务器识破了爬虫。分为以下几个步骤走:1.先检查header头,它可以伪装成浏览器,以防止识破headers = { 'User-agent':'XXXXXXXXXXXXXXX', 'Cookie':'XXXXXXXXXXXXXXXXXX' }只用添加这两条就可原创 2021-07-22 11:22:25 · 7205 阅读 · 0 评论 -
学会Scrapy,再也不用担心不会爬虫了!
Scrapy 框架介绍scrapy是一套比较成熟的python爬虫框架,是使用python开发的快速,高层次的信息爬取框架,可以高效的爬取web页面并提取我们想要的结构化数据。Scrapy 安装与配置安装scrapypip install scrapy通过对应的版本来安装scrapy,安装最新版就行,已经可以支持python3。安装环境python3.7+scrapy最新版如果你的pip命令较老,可以通过命令升级pippython -m pip install --up原创 2021-05-10 17:09:32 · 210 阅读 · 0 评论 -
部分电商平台为防止爬虫竟然这样做?
部分电商平台为防止爬虫竟然这样做?初步介绍此次内容涉及到的电商平台:wish,它是一款国外电商网站,主要业务在移动端,类似于国内的拼XX;URL链接:www.wish.com;爬取内容产品信息:产品名称,店铺名称,价格,评论数,评分;评论信息;开始爬虫先做一个URL解析主页面能看到的信息就只有价格,商品名称,店铺名称,评论数,没有评分;评分在另一个二级页面,但是URL链接没变;用xpath定位也不行。好在我通过索引定位到了他的value值也就是评级,发现此处隐藏了一大串原创 2021-03-16 16:21:00 · 384 阅读 · 0 评论