GitHub质检员

永远的菜鸟开发

爬虫

关注

文章平均质量分 78

爬虫学习笔记

关注数：文章数：23 文章阅读量：19046 文章收藏量：31

作者: GitHub质检员

目前专注于大学生项目实战开发,讲解,毕业答疑辅导以及产品测评、宣传、工具推广等合作。全网粉丝30万+,CSDN特邀博主,Java新星计划多届导师,掘金/知乎/华为云/阿里云/51CTO等平台优质创作者。

展开

爬虫 — 正则案例

💛 💙 💜 ❤️ 💚💓 💗 💕 💞 💘 💖- 拜托拜托这个真的很重要！目标网站：http://www.weather.com.cn/weather/101010700.shtml。获取每一组 li 标签，findall查找所有，返回的数据类型是 list。需求：获取日期，天气，温度，风力数据。：表示尽可能匹配多的字符-1、确定 url，静态加载。：表示尽可能匹配少的字符。相当于是想要的内容-

原创 2023-10-17 09:09:09 · 618 阅读 · 0 评论
爬虫 — 字体反爬

合并成一个字典 = {‘-0px’:第1个数字,‘-21.4px’:第2个数字,‘-42.8px’:第3个数字,‘-64.2px’:第4个数字}x_lst = [‘-0px’,‘-21.4px’,‘-42.8px’,‘-64.2px’]——图片上数字的间距（不会发生变化）12、选择“API文档”，选择“通用场景文字识别”，选择“通用文字识别（标准版）”，选中“Python”；num_lst = [第1个数字,第2个数字,第3个数字,第4个数字]——图片上的数字（会发生变化）

原创 2023-10-16 09:11:56 · 1851 阅读 · 0 评论
爬虫 — 自动化爬虫 Selenium

import time # 导入 time 模块，用于时间相关操作from PIL import Image # 导入 Image 模块，用于图像处理from selenium import webdriver # 导入 webdriver 模块，用于自动化测试和控制浏览器from selenium.webdriver import ActionChains # 导入 ActionChains 类，用于模拟用户操作。

原创 2023-10-16 09:11:20 · 912 阅读 · 0 评论
爬虫 — 验证码反爬

import time # 导入 time 模块，用于时间相关操作from PIL import Image # 导入 Image 模块，用于图像处理from selenium import webdriver # 导入 webdriver 模块，用于自动化测试和控制浏览器from selenium.webdriver import ActionChains # 导入 ActionChains 类，用于模拟用户操作。

原创 2023-10-16 09:10:47 · 1306 阅读 · 0 评论
爬虫 — 内容乱码与证书不信任网站

💛 💙 💜 ❤️ 💚💓 💗 💕 💞 💘 💖- 拜托拜托这个真的很重要！- 有问题可以评论或者私信呢秒回哦。是由信任的数字证书颁发机构验证身份之后颁发的证书，同时具有服务器身份验证和数据传输加密功能。一般由专门的机构颁发的，也有的网站不希望别人爬取，会自己制作证书的，但是这种情况下，一般用户访问时需要手动安装证书。如果出现乱码，设置编码，编码格式跟网页源码当中 charset 的编码是一样的。

原创 2023-10-16 09:09:54 · 662 阅读 · 0 评论
爬虫 — 简介

是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

原创 2023-10-16 09:09:16 · 695 阅读 · 0 评论
爬虫 — 反爬

Cookie 实际上是一小段的文字信息（key - value 格式）。浏览器向服务器发起请求，如果服务器需要记录该状态，服务器就会向浏览器颁发一个 Cookie。浏览器会把 Cookie 保存起来。当浏览器再请求该服务器时，浏览器把请求的网址连同该 Cookie 一同提交给服务器。服务器检查该 Cookie，以此来辨认浏览器状态。

原创 2023-10-16 09:08:39 · 1239 阅读 · 0 评论
爬虫 — 多线程

线程是进程内的执行单元，每个线程独立执行特定的任务，但共享同一进程的内存空间。某个线程要更改共享数据时，先将其锁定，此时，资源的状态为“锁定”，其它线程不能改变，直到该线程释放资源，将资源的状态变成“非锁定”，其它的线程才能再次锁定该资源。在一个函数中，对全局变量进行修改的时候，如果修改了指向，必须使用 global，仅仅是修改了指向空间中的数据时，不用必须使用 global。这些队列都实现了锁原语（可以理解为原子操作，即要么不做，要么都做完），能够在多线程中直接使用，使用队列可以实现线程间的同步。

原创 2023-10-16 09:08:05 · 58 阅读 · 0 评论
爬虫 — Xpath 数据解析

XPath（XML Path Language）是一种 XML 的查询语言，它能在 XML 树状结构中寻找节点。XPath 用于在 XML 文档中通过元素和属性进行导航。XML 是一种标记语法的文本格式，XPath 可以方便的定位 XML 中的元素和其中的属性值。lxml 是 Python 中的一个第三方模块，包含了将 HTML 文本转换成 XML 对象和对对象执行 XPath 的功能。

原创 2023-10-16 09:07:28 · 103 阅读 · 0 评论
爬虫 — Scrapy-Redis

Scrapy-Redis 是 Scrapy 框架的一个扩展，用于实现分布式爬虫。它将 Scrapy 与 Redis 数据库集成，允许多个爬虫实例共享数据并协同工作，以提高爬取效率和可扩展性。Scrapy-Redis 使用 Redis 的集合来进行 URL 的去重处理。每个爬虫实例都会在将 URL 添加到队列之前检查它是否已经存在于集合中，以避免重复爬取。查看 GitHub 源代码1、导入类，修改继承类。2、修改配置文件。# 设置用户代理信息# 指定去重方式，给请求对象去重# 设置调度器。

原创 2023-10-13 09:07:01 · 752 阅读 · 0 评论
爬虫 — Scrapy 框架安装问题

整理几个关于安装 Scrapy 框架时会遇到的问题及解决方法。1、2、3、

原创 2023-10-13 09:06:25 · 768 阅读 · 0 评论
爬虫 — Scrapy 框架（二）

是基于全站数据的爬取，将所有的数据爬取下来。Scrapy 为下载 item 中包含的文件提供了一个可重用的 item pipelines，这些 pipeline 有些共同的方法和结构，常用的有 Files Pipline 和 Images Pipeline。代理服务器会隐藏客户端的真实 IP 地址，并使用自己的 IP 地址作为代理发送请求，但目标服务器仍然可以检测到使用了代理。代理服务器完全隐藏客户端的真实 IP 地址，并使用自己的 IP 地址作为代理发送请求，目标服务器无法检测到使用了代理。

原创 2023-10-12 16:51:43 · 1501 阅读 · 0 评论
爬虫 — Scrapy 框架（一）

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。点击进入官网。

原创 2023-10-12 16:52:18 · 797 阅读 · 0 评论
爬虫 — JsonPath 和 CSV 文件读写

JsonPath 提供的 JSON 解析非常强大，它提供了类似正则表达式的语法，基本上可以满足所有你想要获得的 JSON 内容。（Comma Separated Values），是一种常用的文本格式，用以存储表格数据，包括数字或者字符。是一种简单的方法来提取给定 JSON 文档的部分内容，JsonPath 有许多编程语言，如 Javascript，Python，PHP 和 JAVA。查询的根节点对象，用于表示一个 JSON 数据，可以是数组或对象。数组片段，区间为[start, end)，不包含end。

原创 2023-10-11 09:44:40 · 80 阅读 · 0 评论
爬虫 — Json 模块和 Post 请求

Json（JavaScript Object Notation）是一种轻量级的数据交换格式，具有数据格式简单，读写方便易懂等很多优点。许多主流的编程语言都在用它来进行前后端的数据传输，大大的简化了服务器和客户端的开发工作量。相对于 XML 来说，更加的轻量级，更方便解析，因此许多开发者都遵循 Json 格式来进行数据的传输和交换。

原创 2023-10-11 09:44:10 · 1765 阅读 · 0 评论
爬虫 — Js 逆向案例一英汉互译

目标网站：https://fanyi.baidu.com/需求：实现英汉互译1、分析网站加载方式动态加载，目标 url：https://fanyi.baidu.com/v2transapi?2、分析请求方式post（携带 data 参数）多抓几个包看数据变化会产生变化并且必不可少的参数：sign 加密字段3、根据加密字段找和它相关的 js 文件按 F12 打开开发者工具，找到 Search，点击4、在搜索框输入加密参数后，按回车5、寻找与加密参数相关的 js 文件。

原创 2023-10-10 09:13:28 · 622 阅读 · 0 评论
爬虫 — Js 逆向案例五闪职网登录

目标网站：http://shanzhi.spbeen.com/login/需求：找到密码加密的过程，进行加密1、多输入几次错误的密码，查看哪些字段是加密的。2、如何没有 Search 到相关的字段，可以在 JS 里面找一找。3、如果看到 JS 文件里面有 eval(包裹的 js 代码)，这种一般是对 JS 文件进行了加密，可以把代码复制到解密网站解密。将代码整个复制到文本区域内后，点击“解码”，将解码后的代码复制到新建的 JS 文件中。4、分析发现是输入的密码，所以可以直接把这部分换成密码后运行代码。

原创 2023-10-10 09:12:58 · 622 阅读 · 0 评论
爬虫 — Js 逆向案例四网易云音乐评论

目标网站：https://music.163.com/#/song?需求：获取评论内容，用户名1、分析网站加载方式动态加载，抓包找到目标 url：https://music.163.com/weapi/comment/resource/comments/get?2、分析请求方式post，需要携带参数3、多做测试，看参数值是否变化，不变化可直接携带，变化不可直接携带4、数据是变化的，不能直接携带5、把相关的都打上断点，然后刷新页面6、可以确定需要的值是这里得到的。

原创 2023-10-10 09:12:25 · 600 阅读 · 0 评论
爬虫 — Js 逆向案例三凡科网登录

目标网站：https://i.fkw.com/?_ta=3需求：找到密码加密的过程，进行加密1、抓到向服务器发请求的数据包，输入错误的账号和密码测试密码可以输入123456，如果发现加密后的密码为 e10adc3949ba59abbe56e057f20f883e，就可以确定加密方式为 md5。2、确定加密方式为 md5 后，可直接搜索 md5 后，将相关 js 代码直接复制下来3、将相关代码复制下来。

原创 2023-10-10 09:11:55 · 622 阅读 · 0 评论
爬虫 — Js 逆向案例二微信公众平台登录

目标网站：https://mp.weixin.qq.com/需求：找到密码加密的过程，进行加密1、抓到向服务器发请求的数据包，输入错误的账号和密码2、找到加密字段 pwd如果 Search 里面数据太多，也可以在 Initiator 里面查找url 发送 post 请求，可以在 Initiator 里看到 Js 的执行过程执行顺序是从下往上执行在下面的越先执行，在上面的最后执行从后往前找，看是在哪一个 Js 文件当中进行了加密。

原创 2023-10-10 09:11:23 · 609 阅读 · 0 评论
爬虫 — Bs4 数据解析

Bs4（beautifulsoup4）：是一个可以从 HTML 或 XML 文件中提取数据的网页信息提取库。官方文档Bs4 与 XPath 区别XPath：根据路径找数据Bs4：使用封装好的方法获取数据。

原创 2023-10-10 09:10:09 · 30 阅读 · 0 评论
爬虫 — App 爬虫（二）

类似于 selenium，找包比较困难，加密参数比较难解的时候使用。所需环境node.jsJava 的 SDK安卓的 SDKAppium 应用程序模拟器。

原创 2023-10-10 09:09:24 · 213 阅读 · 0 评论
爬虫 — App 爬虫（一）

爬虫分类——数据来源1、PC 端爬虫（网页端爬虫）找数据接口（requests，scrapy等）selenium2、APP 端爬虫找数据接口获取数据接口——fiddler获取 APP 与服务器进行交互的数据包——模拟器appium1、界面展示2、快捷功能区1：给会话添加备注信息2：重新加载当前会话3：删除会话选项4：放行，和断点对应5：响应模式，当 fiddler 拿到远程的 response 后是缓存起来一次响应给客户端还是以 stream 的方式直接响应。

原创 2023-10-10 09:08:54 · 2671 阅读 · 0 评论