爬虫
文章平均质量分 77
爬虫笔记及技巧
代码魔法师!
这里只是用来记笔记方便,无意讨好读者,有价值的文章会设置粉丝可见和付费专区,不喜勿看
展开
-
最全 chrome driver
从这个链接中直接找对应的chrome和driver。超全chrome和driver的对应链接。在一些文章里的链接是找不到的!原创 2024-01-16 20:36:28 · 517 阅读 · 0 评论 -
[2021.7]猿人学 | 爬虫攻防大赛 | 第三题
目录1. 抓包分析分析JS编写脚本1. 抓包分析 跟之前一样,还是建议大家使用无痕模式抓包分析,防止其他干扰因素影响这里依然是通过ajax的请求来获取数据继续利用之前的思路,我们先点开以下界面,查看请求通过哪些JS,如下所示:分析JS点击上图示意的JS,会跳转到相应的JS位置,这里的代码是没有混淆的,只需要通过代码美化即可,美化后的代码复制到pycharm中,进行简单的分析:发现在ajax传输数据时,定义了两个函数,一个是beforeSend,英文翻译很好理解:在发送请求之前;另一原创 2021-07-22 15:57:07 · 1008 阅读 · 10 评论 -
[2021.7]猿人学 | 爬虫攻防大赛 | 第四题
目录分析网页分析JS代码编写代码这道题实在有点恶心,本人感觉爬虫实际是用不到这个的。所以根据别人的笔记来学习做题,这里进行学习记录过程。分析网页老规矩,我们还是首先打开刷题网站,接着打开谷歌调试工具查看【XHR】里面的内容可以发现,这次传递数据的接口很特别,跟之前的题目都不一样之前的题目涉及到的数字都会以json的格式,储存在里面,而这次虽然也是json格式的数据,却返回了一些奇奇怪怪的东西我们接着看看【ALL】里面的内容10张经过base64编码后的图片引起了我的注意这些图片不就是题原创 2021-07-22 17:15:09 · 12099 阅读 · 1 评论 -
[2021.7]猿人学 | 爬虫攻防大赛 | 第一题
这里写自定义目录标题[2021.7]猿人学第一题1.抓包分析2.分析数据来源3.分析请求数据参数4.分析加密代码6.编写python脚本进行计算[2021.7]猿人学第一题看了网上的2020年的JS混淆教学,发现大多数只是思路可以用,也没有提供软件和工具,在这里,特意花了一天的时间去研究,只使用了一些在线工具以及pycharm,做做笔记整理操作流程。网站链接:http://match.yuanrenxue.com/list1.抓包分析一进去,打开调试(F12),进入debugger界面,先禁用de原创 2021-07-20 15:01:06 · 1401 阅读 · 1 评论 -
[2021.7]猿人学 | 爬虫攻防大赛 | 第二题
目录1.cookie作用2.谷歌抓包分析3.cookie变换代码分析1.cookie作用Cookie相当于你浏览Web站点时,相对于这个站点的身份证号,如果说身份证号错误,肯定是不能正常访问这个站点的;这也是这次题目的考察内容动态cookie,每过一段时间 ,就会重新加载cookie来重置页面,通过这种方式,达到反爬虫的效果,只有破解掉动态cookie的生成过程,才可以通过爬虫进行正常爬取2.谷歌抓包分析由于是动态Cookie,为了避免其他Cookie的影响,所以使用浏览器的无痕模式进行调试,按f原创 2021-07-21 14:56:57 · 1182 阅读 · 3 评论 -
Scrapy爬虫基本命令 | 各类配置文件的使用 | 其他的爬虫小技巧
爬虫基本命令新建项目在开始爬取之前,必须创建一个新的Scrapy项目。进入自定义的项目目录中,在终端下运行下列命令:scrapy startproject mySpider生成爬虫文件生成爬虫名是itcast, 爬虫允许的域名是 itcast.cn这里爬虫允许爬取的域名范围 如果后面修改代码时增加了其他域名,需要在这里进行修改scrapy genspider itcast "itcast.cn">> 代码变化示例如下:name = "itcast" allow_d原创 2022-04-16 20:34:41 · 2465 阅读 · 0 评论 -
pytesseract的使用 | python识别验证码
目录1. 安装tesseract2.安装pytesseract3. 修改包中部分代码4.代码网站测试1. 安装tesseract详见:https://blog.csdn.net/lijiamingccc/article/details/1194597752.安装pytesseract在pycharm终端下,安装 pytesseract,如图所示pip install pytesseract3. 修改包中部分代码文件中的这个路径,改成第一步你安装的位置,建议找到之后直接复制前面加个r原创 2021-08-27 18:38:05 · 1167 阅读 · 0 评论 -
携程逆向爬虫 | PC网页端 | 旅游景点评论爬虫
目录导语1. 获取所有城市_id2. 分析评论信息位置3. 获取当前市 景点页数4.获取当前景点的评论页数5. 总体爬虫效果6. 注意导语自携程更新后,这是全网首篇,关于新版携程的逆向爬虫最近由于项目需要,编写了携程逆向爬虫脚本,遇到过一些难点,然而在携程更新网页端之后,也没有大牛写过新的关于携程爬虫的文章。由于还没有创建github(有点懒),代码需要的可以私信,这里只提供思路和过程在此,给网友提供思路和全站爬虫效果,有需要的可以私信我主要难点(坑)如下:很多加密参数需要自行测试payl原创 2021-08-18 11:15:16 · 4645 阅读 · 17 评论 -
tesseract的安装
目录tesseract的安装1.1下载tesseract1.2安装tesseract1.3配置环境变量1.4测试tesseract的安装1.1下载tesseract在https://digi.bib.uni-mannheim.de/tesseract/中下载对应版本,这里博主下载的是2021年最新的1.2安装tesseract双击之后开始安装步骤,基本就无脑下一步即可下载完双击打开,连续next,直到出现安装路径的时候,可以自定义安装路径也可以使用默认的安装路径,但是无论是哪一种一定要记住路径原创 2021-08-06 17:41:17 · 3546 阅读 · 1 评论 -
爬取招聘数据 | scrapy 前程无忧51job
目录1. 预备知识2. 抓取目标结构3.抓包分析3.1 抓包分析url地址3.2 分析页码规律3.3分析数据存储位置4. 正则表达式的应用5. 代码编写5.1 start_requests5.2 正则提取数据5.3 提取职位的详情信息1. 预备知识python语言,scrapy爬虫基础,正则表达式2. 抓取目标结构职位列表中的以下信息:点击职位,进入职位详情页中,提取以下信息:3.抓包分析3.1 抓包分析url地址先进入到我们的页面中来,选择想要爬取的城市,url地址会发生相应的变化原创 2021-07-23 14:40:18 · 4629 阅读 · 26 评论 -
使用scrapy爬取斗鱼直播间信息
目录1. 谷歌抓包工具的使用1.1 打开Chrome开发者工具的方法1.2 开发者工具的结构1.3 network模块2. 使用谷歌抓包工具抓取斗鱼数据3. 使用scrapy爬取斗鱼直播间信息1. 谷歌抓包工具的使用1.1 打开Chrome开发者工具的方法在Chrome界面按F12or在页面元素上右键点击,选择“检查”1.2 开发者工具的结构根据上图结构,从左到右依次介绍如下:Elements(元素面板):使用“元素”面板可以通过自由操纵DOM和CSS来重演您网站的布局和设计。Cons原创 2021-07-21 15:35:51 · 1331 阅读 · 2 评论 -
利用scrapy进行模拟登录实验
目录1. 了解模拟登录的作用2. scrapy请求时携带Cookies2.1 什么是cookies2.2 cookies的组成2.3 抓取cookies数据2.4 代码实现scrapy携带cookies请求3. 使用FormRequest发送POST模拟登录3.1 GET请求和POST请求的区别3.2 抓包过程及代码实现1. 了解模拟登录的作用有些网站是需要登录之后才能访问的,即便是同一个网站,在用户登录前后页面所展示的内容也可能会大不相同,例如,未登录时访问http://www.openedv.c原创 2021-07-21 09:09:57 · 685 阅读 · 5 评论