自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 自学爬虫第三天,番茄小说(文字加密)

学习爬虫的时候,会遇到各种各样的加密,对于番茄来说,它的加密主要体现在文字上,也是平常所说的文字加密。文字加密是网站的一种常用的反爬手段,会让提取的内容不能正确的显示出来。以上就是今天要讲的内容,文字加密是的一种最简单反爬机制,只有两套编码,多的三四套也是有的,这样就更麻烦了。在保证能把内容爬下来的前提下,再去分析内容是否有问题,有问题一层一层的解决问题。

2024-08-17 13:25:54 1427

原创 自学爬虫第二天,飞卢小说网。

2.对左侧的html文档右键点击复制构建请求头,然后看一下响应给我们的信息有没有乱码或者显示问题。当两个编码一样的时候,encoding还是原来的,如果不一样,那么就把apparent_encoding的编码赋给response.encoding。依赖的库:requests, lxml, parsel(因为要熟悉第三方库,所以在爬title和具体的内容时用了不同的库去解析)到此,这篇小说的可爬部分已经全部被爬取下来,有兴趣的可以自行尝试。执行,发现45章都成功爬取,且36章的喽啰的啰也成功解析。

2024-08-16 14:19:24 1040

原创 自学爬虫第一天,从爬小说开始。

先进入小说第一章节的网址:https://www.bg90.cc/book/93002/15.html,按F12打开调试,点击网络部分,点击刷新,再点击文档发现有监控到html资源,先查看响应有没有我们所需要的内容,且内容是否正常,有没有加密和缺失,如果没有,那么我们就正常请求内容就行。这里xpath里面的正则表达式,可以在调试工具里面定位到所要爬的内容行,然后右键点击复制,选中复制xPath,就可以把内容的正则复制出来。然后定义一个保存小说的路径,这里我选择的是把所有章节写到一个txt里面。

2024-08-14 17:16:29 338 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除