『python爬虫』01. 爬虫入门的基础知识(保姆级图文)


欢迎关注 『python爬虫』 专栏,持续更新中
欢迎关注 『python爬虫』 专栏,持续更新中

1. 合法性

查看网站的爬虫协议,简单介绍爬虫协议robots.txt,避免爬虫爬的好,牢饭吃得早(保姆级图文)

  • robots.txt协议: 君⼦协议。规定了⽹站中哪些数据可以被爬⾍爬取,哪些数据不可以被爬取
  • 只要在网站要求的君子协议下爬虫,不出现因为短时间爬虫过多导致网站崩溃,都是合法的爬虫

2. 爬虫原理

我们看到的网页是由浏览器把html文件渲染产生的,我们要从网页中获取我们需要的信息并进行保存。

我们后期还会接触到一些反爬虫的措施,比如防盗链。

爬虫也涉及了cookie,代理,多线程等内容。

爬虫后通常还需要对数据进行持久化保存。


3. 网站源代码查看

后面我们会经常性用f12或者右键查看源码

在这里插入图片描述

4. 查看网络请求

抓包时可以先clear 清除掉原来的数据,避免干扰。一般请求服务器的资源在XHR类别中
在这里插入图片描述


总结

大家喜欢的话,给个👍,点个关注!给大家分享更多计算机专业学生的求学之路!

版权声明:

发现你走远了@mzh原创作品,转载必须标注原文链接

Copyright 2023 mzh

Crated:2023-3-1

欢迎关注 『python爬虫』 专栏,持续更新中
欢迎关注 『python爬虫』 专栏,持续更新中
『01. 爬虫入门的基础知识』
『02. 简单爬取百度并保存为html网页』
『03. web请求过程剖析』
『04. 爬虫需要知道的HTTP协议知识』
『05. requests模块入门』
『06. 数据解析之re正则解析』
『07. 正则实战之豆瓣电影信息爬取』
『08. 数据解析之bs4解析』
『09. bs4实战之爬取精美壁纸』
『10. 数据解析之xpath解析』
『11. xpath解析实战之爬取csdn文章信息』
『12. 模拟登陆之cookie的使用』
『13. 防盗链实战之梨视频下载』
『14. ip代理语法』
『15. 综合实战爬取网易云音乐评论』
『16. 多线程与多进程』
『17. 线程池和进程池以及线程池实战』
『18. 协程』
『19. aiohttp模块应用之爬取图片』
『20. 用协程爬取一本小说』
『21. 协程爬取一个视频需要的知识』
『22. 初识自动化测试工具selenium』
『23. selenium之窗口切换与iframe』
『24. selenium之无头浏览器-后台静默运行』
『25. 接入超级鹰处理验证码』
『26. selenium与超级鹰处理复杂验证码的处理』
『未完待续』


  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

发现你走远了

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值