Myc970223
码龄1年
关注
提问 私信
  • 博客:4,462
    4,462
    总访问量
  • 3
    原创
  • 162,311
    排名
  • 33
    粉丝
  • 0
    铁粉
  • 学习成就
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:四川省
  • 加入CSDN时间: 2024-04-26
博客简介:

Myc970223的博客

查看详细资料
  • 原力等级
    成就
    当前等级
    1
    当前总分
    38
    当月
    2
个人成就
  • 获得46次点赞
  • 内容获得1次评论
  • 获得32次收藏
  • 代码片获得109次分享
创作历程
  • 3篇
    2024年
成就勋章
创作活动更多

HarmonyOS开发者社区有奖征文来啦!

用文字记录下您与HarmonyOS的故事。参与活动,还有机会赢奖,快来加入我们吧!

0人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

自学爬虫第三天,番茄小说(文字加密)

学习爬虫的时候,会遇到各种各样的加密,对于番茄来说,它的加密主要体现在文字上,也是平常所说的文字加密。文字加密是网站的一种常用的反爬手段,会让提取的内容不能正确的显示出来。以上就是今天要讲的内容,文字加密是的一种最简单反爬机制,只有两套编码,多的三四套也是有的,这样就更麻烦了。在保证能把内容爬下来的前提下,再去分析内容是否有问题,有问题一层一层的解决问题。
原创
发布博客 2024.08.17 ·
2362 阅读 ·
18 点赞 ·
0 评论 ·
18 收藏

自学爬虫第二天,飞卢小说网。

2.对左侧的html文档右键点击复制构建请求头,然后看一下响应给我们的信息有没有乱码或者显示问题。当两个编码一样的时候,encoding还是原来的,如果不一样,那么就把apparent_encoding的编码赋给response.encoding。依赖的库:requests, lxml, parsel(因为要熟悉第三方库,所以在爬title和具体的内容时用了不同的库去解析)到此,这篇小说的可爬部分已经全部被爬取下来,有兴趣的可以自行尝试。执行,发现45章都成功爬取,且36章的喽啰的啰也成功解析。
原创
发布博客 2024.08.16 ·
1550 阅读 ·
12 点赞 ·
0 评论 ·
8 收藏

自学爬虫第一天,从爬小说开始。

先进入小说第一章节的网址:https://www.bg90.cc/book/93002/15.html,按F12打开调试,点击网络部分,点击刷新,再点击文档发现有监控到html资源,先查看响应有没有我们所需要的内容,且内容是否正常,有没有加密和缺失,如果没有,那么我们就正常请求内容就行。这里xpath里面的正则表达式,可以在调试工具里面定位到所要爬的内容行,然后右键点击复制,选中复制xPath,就可以把内容的正则复制出来。然后定义一个保存小说的路径,这里我选择的是把所有章节写到一个txt里面。
原创
发布博客 2024.08.14 ·
537 阅读 ·
16 点赞 ·
1 评论 ·
6 收藏