Web爬虫|入门实战之实习僧（编码反爬）

小鸿的摸鱼日常

已于 2022-11-29 15:19:51 修改

阅读量1.3k

点赞数 6

分类专栏：网络爬虫入门文章标签： python 爬虫后端 github

于 2021-11-22 22:09:15 首次发布

本文链接：https://blog.csdn.net/qq_44000141/article/details/121480796

版权

网络爬虫入门专栏收录该内容

4 篇文章 2 订阅

订阅专栏

原创不易，本文禁止抄袭、转载，多年爬虫实战开发经验总结，侵权必究！

一、爬虫任务

任务背景：爬取实习僧网站Python实习数据
任务目标：利用解析库Beautiful Soup解析网页并获得所需数据

二、解析

首先进入实习僧官网主页：https://www.shixiseng.com
爬取一下实习僧IT互联网的Python实习信息，如下图：
在这里插入图片描述

滑到页面最底部，点击下一页，观察URL的规律，如下图：

从上面的网址可以看出，只有page=？这里变化了

接着再点进去，查看相应的详细数据：https://www.shixiseng.com/intern/inn_1k3vhcwwguaf?pcm=pc_SearchList

然后再查看相应源代码的属性，如下图：
在这里插入图片描述
如上图所示，该字段的数据看不见，可能它不希望你很简单的就获得它网站的这些数据，这些数据对他来说比较重要，不想让我们轻易获得，所以启用了反爬

如果直接运行，这些数据是爬取不下来的，如下图：
在这里插入图片描述
反反爬技巧：实际上这是编码问题，我们只要用一种编码方式，比如“utf-8”编码来表示这些数据，然后再用你选的编码方式来替换相应的数据部分，如下图：

如上图，相关数据已经以“utf-8”编码的方式呈现出来

创建函数hack_number()，用于解码数字：
在这里插入图片描述
然后再观察一下点进去的网址：

我们这里是先广度再深度进行爬取数据

编写好相关代码之后，查看运行结果：

三、源码下载

CSDN源码下载链接：下载源码

原创不易，如果觉得有点用，希望可以随手点个赞，拜谢各位老铁！

四、作者Info

作者：小鸿的摸鱼日常，Goal：让编程更有趣！

专注于算法、爬虫，网站，游戏开发，数据分析、自然语言处理，AI等，期待你的关注，让我们一起成长、一起Coding！

转载说明：本文禁止抄袭、转载，侵权必究！

小鸿的摸鱼日常

关注

6
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
4
评论
Web爬虫|入门实战之实习僧（编码反爬）

用多年实战开发经验手把手教你如何用解析库Beautiful Soup爬取实习僧网站Python实习数据，包括实习职位，实习酬劳，实习地点，实习学位，实习时间，实习时长，实习职责等数据
复制链接

扫一扫