自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 资源 (1)
  • 收藏
  • 关注

原创 【爬虫进阶】易班登录加密逆向

demo比较简单,逆向难点:rsa加密,图片验证码。

2022-11-24 18:13:33 1239 1

原创 【爬虫进阶】猿人学任务六之回溯(难度3.0)

本文讲解猿人学web题目第6题,内容难点如下:颜文字,JSUnFuck。

2022-11-14 18:15:35 985 3

原创 【爬虫系列】用Python爬取网抑云(music)评论

本案例难度一般,需要逆向两个加密参数,对于初学者还是比较麻烦的,希望通过我的分析过程,能帮助大家快速理解!

2022-09-29 10:14:37 610 4

原创 【爬虫进阶】猿人学任务七之字体反爬(难度2.0)

往期有讲解过某团字体反爬,感觉效果不太好,所以本章重新找了个例子,希望能帮助大家理解透彻!下次遇到直接手撕。

2022-09-28 11:35:38 795 11

原创 【爬虫进阶】猿人学任务一之JS混淆(难度2.0)

你问我Js逆向是什么?请看:👇👇👇。

2022-09-15 17:29:24 530 8

原创 【爬虫系列】用Pyqt5写一个爬虫小助手

PyQt5是Digia的一套Qt5应用框架与python的结合,同时支持2.x和3.x。Qt库由Riverbank Computing开发,是最强大的GUI库之一。

2022-08-09 17:54:59 781 8

原创 【爬虫技能树】㈣、request.session()之应用场景

request.session()这个方法可以保存上次请求时的Cookie,有利于我们在登录场景中,post得到Cookie后,可直接请求网页,无需登录。Cookie:由服务器产生,浏览器收到请求后保存在本地,当再次访问时,会自动带上Cookie,这样服务器就能通过Cookie来判断用户!点关注不迷路,本文若对你有帮助,烦请三连支持一下 ❤️❤️❤️各位的支持和认可就是我最大的动力❤️❤️❤️。......

2022-08-03 11:27:30 1936 5

原创 【爬虫进阶】字体解密——案例解析

地址标签名称是address,所以打开address.woff,利用某度字体编辑器解析字体文件。发现后4位字符一致,所以这个woff文件就是这个字体的加密文件。打开网页,可以看到部分字体显示乱码,需要找到加密字体文件。全局搜索woff文件,找到目标文件,随机点开一个。打开目标源代码,可以发现上面文件中有字体css。处理编码与字体的对应关系。保存所有字体文件到本地。............

2022-08-01 17:30:43 1207 6

原创 【爬虫技能书】分享自用爬虫书籍,快进来看看!

从页面中抓取数据的三种方法,提取缓存中的数据,使用多个线程和进程来进行并发抓取,如何抓取动态页面中的内容,与表单进行交互,处理页面中的验证码问题,以及使用Scarpy和Portia来进行数据抓取,并在最后对几个真实的网站进行了抓取。书籍,以大量系统的实战项目与驱动,由浅及深的讲解爬虫中开发的知识与技能。作者理查德劳森(RichardLawson)......

2022-07-20 15:52:35 456 7

原创 【爬虫技能树】㈢、必备技能:正则表达式

正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。Pythonre模块提供了一些函数,使用一个模式字符串做为它们的第一个参数。

2022-07-20 14:51:22 128 1

原创 【爬虫技能树】㈡、urllib的使用介绍

urllib库用于请求网页URL,并对网页的内容进行抓取处理。对比request的话不是很方便,个人更偏向于使用request。模块说明打开或读取urlurllib.request抛出的异常解析url解析robots.txt。

2022-07-19 11:44:19 223

原创 【爬虫技能树】㈠、request的使用介绍

Python内置了requests模块,该模块主要用来发送HTTP请求,requests模块比urllib模块更简洁。

2022-07-19 10:52:22 304 1

原创 【爬虫进阶】Js逆向——有道批量翻译文本

想要更进一步了解爬虫领域,学Js肯定是必不可少的,怎么说呢?现在大部分网站开始对数据层层加密,导致我们要花费大量的精力去研究,如果不了解的话,甚至连入口都找不到!这时候就会有人说用selenium不就行了,确实没问题,但是要想想效率高吗?要是10w+的数据量,那得跑多久?如果生产使用,你要怎么办?你跟老板说,机器慢我也没办法?回到主题,js逆向没有固定的方法论,所以也没有一定的解决方法,只能见招拆招点关注不迷路,本文章若对你有帮助,烦请三连支持一下❤️❤️❤️httpshttpshttps。........

2022-07-18 15:22:49 980 2

原创 【爬虫系列】Python一键获取股票数据,搭配pyecharts可视化展示

本人没事喜欢研究下理财,毕竟那点工资想实现经济自由,不太现实!基金也好,股票也罢,都具有一定的风险程序,稍有不慎,血本无归😖,大家不要轻易冒险,赚钱不易,通过此篇文章,分享一下自己平时一些研究方法目的:爬取的数据要达到什么效果?能帮助我们解决什么问题?首先需要了解一些基本的股票知识:成交量,当前成交价,换手率,涨跌幅…等等一些基本的股票数据名词,我们了解这些数据之后,是不是就明白要爬什么了,这些数据能够帮助我们快速了解一支股票的近期形式。数据平台(爬取的网站)找了很久,也是通过一些朋友推荐的一款PC也能.

2022-06-30 17:46:32 3605

原创 【爬虫系列】毕业季到了,用python写一个招聘爬虫

一年一度的毕业季又来了,应届生也要步入社会了,找工作当然是首当其冲的,仅以此篇软文,为广大应届生送上我一点绵薄之力!首先,我们抓取数据,要有一个方向;方向:爬什么数据?选用什么网站?爬虫过程是否便利?我们都要考虑到,这里我以广大同胞都在用的BOSS为例,各位不喜欢可以选用别的,纯属用习惯了!selenium (获取网页源代码),因为boss是有比较严格的反爬机制的,用request爬取频繁的话,是会被封禁ip的,你们有条件的,可以购买代理!BeautifulSoup(解析数据),这里为什么用bs4呢,说xp

2022-06-30 15:27:45 1040 3

原创 小白都能轻松掌握,python最稳定的图片识别库ddddocr

在爬虫过程中,大多我们都会碰到验证码识别,它是常用的一种反爬手段,包括:滑块验证码,图片验证码,算术验证码,点击验证码,所讲的图片验证码是较简单的,因为有大佬,给我们造好了轮子,我们直接套用就行!这是题外的,为什么要做对比呢,有对比才能知道他的优缺点。准备结果这是处理过的图片发现差别还是有点大的,要是没有训练模型,生产使用确实不太行!☁️使用ddddocr☁️简介硬性要求安装GitHub文档地址测试,还是刚刚那种图。结果,一眼可见,没有对比就没有伤害短短5行代码,就饶

2022-06-23 11:38:19 23128 1

原创 为逗女朋友开心,我用python写了个定时短信

1.注册账号大多网上都是用的国外的接口,不稳定,这个是国内比较稳定的,不用担心发送不成功1.1 注册完之后,登录账号点击国内短信界面,可以看到有一个API-Key,是调用接口的必要参数,也是验证身份唯一凭证,大家一定保管好!2.调用API上图有一个万能接口,点击生成我们需要的接口,不了解的,可以看看官方文档 API文档,有详细讲解调用方法。2.1 通过request,直接请求(get)3.爬取土味情话,文采好的可以自行发挥!!!哈哈3.1 随便百度了一个,将就一下3.2 我这里就随手存放到

2022-06-22 17:15:53 511

原创 scrapy-redis搭建分布式爬取亚马逊best排行榜

不会吧不会吧,不会还有人不会scarpy吧?抖个包袱,没有那个意思哈!!!scrapy-redis简介官方架构Slaver(从)从Master(主)拿到爬取任务(Request、url)进行数据抓取,Slaver抓取数据的同时,产生新任务的Request便提交给 Master(主) 处理Master(主)负责将未处理的Request去重和任务分配,将处理后的Request加入待爬队列,并且存储爬取的数据。scrapy-redis核心思想说白了,就是利用redis机制,实现 r

2022-06-11 11:50:54 3077 2

原创 三)django实现查询,分页,批量删除

前景回顾从登录到加密,好像太基础了大家都会,看来是我多虑了。那接下来我们讲解本系列核心内容,不管什么类型网站,都要用到查询,所以写好一个查询页是多么重要!泰隆从实践中得出为方便用户使用,该有的功能我们一样都不能少,不然后续头疼的还是自己。美观和使用我们都要,下面由我为大家详细说一说1.前端(前端很废,一部分是借鉴)1.1.1 select.html<!DOCTYPE html><html lang="en" xmlns="http://www.w3.org/1999/htm

2022-05-11 11:35:26 1228 3

原创 2)速卖通商品信息采集(进阶)

最近好多小伙伴私信我要代码,因为是去年完成的,某通更改了部分结构,导致代码失效,最近花了一点时间,更新了代码!回顾前景,已经说明某通的数据是js渲染过的,但是也存放在网页源码中,转换成了json格式,我们需要通过正则来提取。两种思路:1)selenium;对速度没要求,想方便一点,推荐,直接使用xpath提取数据,但是速度较慢,不适用于爬取量过大2)request;速度快,爬取量大,就是提取数据的时候比较麻烦,要分析结构3)逆向就不推荐了,需要懂js,难度较高,有想法可以试着本地加载js渲染数据

2022-04-28 16:15:54 4026 2

原创 二)django实现md5加密,解密验证

你还在以明文形式存储密码吗?优点:自我可见缺点:不安全,不靠谱,不负责以下讲述使用Md5对密码进行加密,验证,也有可能被暴力破解,大家可以按key…value的形式加密,增加破解难度!)1 密码加密我使用的python3+,导入hashlib来操作Md5。pip install hashlib注册import hashlibfrom django.shortcuts import renderdef register(request): if request.method =

2022-04-01 15:17:59 3649 2

原创 (一) python+Django实现登录页面

最近因为工作需要,开始捣鼓web框架!接下来就带大家做一个小项目,方便企业内部数据统计,调查问卷!一. 操作页二.数据填写页三.查询页首先我们可以找一个自己喜欢的登录页模板,不怕麻烦的话也可以自己写,我套用的是Bootstrap其中的一个登录模板。有需要可以自己去看一下!Bootstrap模板模板有了,下面开始创建一个Django项目,有条件的使用的是专业版可以在直接New Project新建一个。是社区版的就老老实实在命令行执行命令吧,命令如下:创建一个项目djang

2022-01-14 17:43:04 7414 1

原创 亚马逊评论爬虫+数据分析

爬取评论做分析首先得有数据,数据是核心,而且要准确!爬虫必要步骤,选好框架开发所需数据最后测试流程这里我所选框架是selenium+request,很多人觉得selenium慢,确实不快,仅针对此项目我做过测试,相对于request要快,要方便一些!也可以用你们熟悉的框架,用的趁手就行!安装浏览器对应webdriver版本http://npm.taobao.org/mirrors/chromedriver/获取评论数,评级数, 监控评论·亚马逊产品评论分为5个等级,从1到5

2021-12-27 17:05:22 2854

原创 python+selenium 亚马逊商品信息采集

小编最近因为要爬取该网站,发现之前的代码用不了!所以有了这编文章,原因是因为用requets获取的源码与网页显示不一样,只能逼着我使用selenium,通过本编文章给大家讲解一下selenium基本场景运用。照常,打开F12分析网页,获取xpath,这里提醒一下大家,最好是通过右键查看源代码来获取,检查与我们实际得到的代码还是有些不一致的!废话少说,直接上代码from selenium import webdriverfrom lxml import etreefrom selen

2021-08-26 17:11:14 756

原创 如何用python快速爬取速卖通商品信息

我们首先打开网页做分析按下F12点击Network找到headers,将Cookie和User-agent复制下来,留着备用!下面用requets做调式,能否获取到网页信息import requestsdef get_html(url): cookie = 'ali_apache_id=11.134.216.25.1620641275908.387521.9; cna=hyANGQQpnwUCAXFZBo1X/gL1; _bl_uid=eekXnoe0ihCgpa1FCqstxaXlI

2021-08-04 12:24:02 3671 5

原创 ‘远程主机强迫关闭了一个现有的连接‘?说说这些年爬虫遇到的坑!

想要写出好的爬虫就得经历各种风雨!ConnectionResetError(10054, ‘远程主机强迫关闭了一个现有的连接。’出现以上这种现象,无非访问频次过多,导致服务器识破了爬虫。分为以下几个步骤走:1.先检查header头,它可以伪装成浏览器,以防止识破headers = { 'User-agent':'XXXXXXXXXXXXXXX', 'Cookie':'XXXXXXXXXXXXXXXXXX' }只用添加这两条就可

2021-07-22 11:22:25 7514

原创 学会Scrapy,再也不用担心不会爬虫了!

Scrapy 框架介绍scrapy是一套比较成熟的python爬虫框架,是使用python开发的快速,高层次的信息爬取框架,可以高效的爬取web页面并提取我们想要的结构化数据。Scrapy 安装与配置安装scrapypip install scrapy通过对应的版本来安装scrapy,安装最新版就行,已经可以支持python3。安装环境python3.7+scrapy最新版如果你的pip命令较老,可以通过命令升级pippython -m pip install --up

2021-05-10 17:09:32 218

原创 部分电商平台为防止爬虫竟然这样做?

部分电商平台为防止爬虫竟然这样做?初步介绍此次内容涉及到的电商平台:wish,它是一款国外电商网站,主要业务在移动端,类似于国内的拼XX;URL链接:www.wish.com;爬取内容产品信息:产品名称,店铺名称,价格,评论数,评分;评论信息;开始爬虫先做一个URL解析主页面能看到的信息就只有价格,商品名称,店铺名称,评论数,没有评分;评分在另一个二级页面,但是URL链接没变;用xpath定位也不行。好在我通过索引定位到了他的value值也就是评级,发现此处隐藏了一大串

2021-03-16 16:21:00 394

原创 亚马逊产品情感评论分析

爬取亚马逊网站评论信息并存入excel表import requestsfrom lxml import etreeimport reimport xlwtfrom openpyxl import workbook # 写入Excel表所用from openpyxl import load_workbook # 读取excel# import matplotlib.pylab as pltfrom xlrd import bookheaders = { 'User-Age.

2020-06-22 18:02:09 2141

原创 redis 入门操作一看就懂

redis简介优点1.⾼可扩展性2.分布式计算3.低成本4.架构的灵活性,半结构化数据 没有复杂的关系缺点1.没有标准化2.有限的查询功能(到⽬前为⽌)与mysql的区别⼤⼤减少了查询数量,提⾼了效率redis的API更加⼈性化,再也不需要构建SQL语句,节省了SQL的解析时间redis经常应用场所1.排⾏榜 - 很多⽹站都有排⾏榜功能,利⽤Redis中的列表和有序集合...

2020-01-21 22:58:49 107

原创 mysql 高级查询

查询指定字段select name,age from students;起别名select name as 姓名,age as 年龄 from students;select s.name s.age from students as s;去重select name as 姓名,age as 年龄 from students;select s.name s.age ...

2020-01-19 19:24:03 331

原创 mysql 数据库简单入门

mysql基本操作连接mysql数据库mysql -h 服务器地址 -u root -p 不要在p后面直接跟密码忘记密码1.到/etc/mysql/mysqld.conf.d/,编辑mysqld.confsudo vim mysqld.conf2.到[mysqld]下添加:skip-grant-tables保存退出3.重启mysql服务: sudo service ...

2020-01-16 20:58:48 249

原创 在pycham中使用虚拟环境

pycham配置虚拟环境1.创建⼀个新⼯程,File-setting->project interpreter ,点击右上角的Flie按钮–>详情如下图2.点击右上角的设置符3.然后点击show all,看里面有没有python 如果有就添加 没有就点击右上角的+号 新建一个4 点击“+”,然后,在下图中选择Existing interperter后⾯的.5.打开virt...

2020-01-15 19:52:27 477

原创 在Ubuntu上创建虚拟环境

Ubuntu上创建虚拟开发环境1.打开终端 安装pipsudo apt install python3-pip使用安装包pip install 包名pip install 包名 -i 下载源(https://pypi.douban.com/simple)使⽤pip卸载包 pip unistall 包名pip freeze 列出我们⾃⼰安装的所有依赖包pip list 列出...

2020-01-14 19:33:48 3747 3

抓取速卖通商品信息完整源码

详细说明如何爬取速卖通商品数据

2022-06-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除