爬虫学习记录——1

山山而川989

已于 2024-03-21 15:35:42 修改

阅读量937

点赞数 9

分类专栏：爬虫文章标签：爬虫学习 python

于 2024-03-20 10:38:29 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_71866597/article/details/136868608

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

爬虫的概念：

模拟浏览器，发送请求，获取响应

原则上，只要是客户端（浏览器）能做的事情，爬虫都能做
爬虫也只能获取客户端（浏览器）所展示出来的数据

爬虫的作用：

数据采集（数据分析、挖掘）
软件测试（自动化测试）
抢票
网站上的投票
网络安全（web漏洞扫描）

爬虫的分类：

根据被爬取网站的数量不同，分为

通用爬虫：爬取目标网站没有上限，如搜素引擎
聚焦爬虫：目标网站是有上限的，专门爬取某一个或某一类网站的数据

根据是否以获取数据为目的，分为：

功能性爬虫：只以实现某个功能为目的（并不获取数据），如给喜欢的明星投票、点赞
数据增量爬虫：以获取数据为目的，会把获得的数据存入数据库以便之后的分析

根据url地址和对应的页面内容是否改变，数据增量爬虫可分为：

基于url地址变化、内容也随之变化的数据增量爬虫
url地址不变、内容变化的数控增量爬虫

爬虫的流程：

获取一个url
向url发送请求，并获取响应（需要http协议）
如果从响应中提取url，则继续发送请求获取响应
如果从响应中提取数据，则将数据进行保存

http以及https概念和区别：

HTTPS比HTTP更安全，但是性能更低

1.HTTP：超文本传输协议，默认端口号：80 缺点：明文的方式传输，不安全

超文本：是指超过文本，不仅限于文本，还包括图片、音频、视频等文件
传输协议：是指使用共用约定的固定格式来传递转换成字符串的超文本内容

2.HTTPS：HTTP + SSL（安全套接字层），即带来安全套接字层的超文本传输协议，默认端口号：443

SSL对传输的内容（超文本，也就是请求或响应体）进行加密

3.可以打开浏览器访问一个url，右键检查，点击net work, 点选一个url，查看http协议的形式

山山而川989

关注

9
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
爬虫学习记录——1

2.HTTPS：HTTP + SSL（安全套接字层），即带来安全套接字层的超文本传输协议，默认端口号：443。3.可以打开浏览器访问一个url，右键检查，点击net work, 点选一个url，查看http协议的形式。HTTPS比HTTP更安全，但是性能更低。实现某个功能为目的（并不获取数据）模拟浏览器，发送请求，获取响应。url地址变化、内容也随之变化。url地址不变、内容变化。
复制链接

扫一扫

专栏目录

山山而川989 CSDN认证博客专家 CSDN认证企业博客

码龄2年

7: 原创

145万+: 周排名

11万+: 总排名

5907: 访问

: 等级

176: 积分

62: 粉丝

89: 获赞

5: 评论

50: 收藏

私信

关注

热门文章

分类专栏

最新评论

WordCount 案例实操集群上测试——用 maven 打 jar 包，需要添加的打包插件依赖时报错
CSDN-Ada助手: 恭喜你成功发布了第6篇博客！看到你在实操集群上测试WordCount案例的经验分享，让我受益匪浅。不过在打包过程中遇到报错也是很正常的，希望你能耐心解决问题并分享解决方案。接下来，或许可以考虑分享更多关于大数据处理的案例或者深入探讨一些技术细节，期待你更多精彩的创作！加油！
Error occurred during initialization of VM Failed setting boot class path.
CSDN-Ada助手: 恭喜您发布了第5篇博客！看到您遇到了“Error occurred during initialization of VM Failed setting boot class path.”这样的问题，不过您成功克服困难并分享了解决方法，真是令人钦佩。希望您能继续保持创作的热情和耐心，探索更多有趣的内容。或许下一步可以尝试深入探讨一些技术细节或者分享实用的技巧，让读者受益更多。加油！期待您更多精彩的文章！
爬虫学习记录——1
CSDN-Ada助手: 恭喜您第三篇博客的发表！看到您在爬虫学习方面的努力和记录，真的让人非常钦佩。希望您能继续保持这种学习的热情和态度，不断坚持下去。接下来，我建议您可以尝试深入研究爬虫的高级技术，比如反爬虫策略的应对和数据的处理与分析等方面，相信您一定会有更多的收获和进步。期待您的下一篇作品，加油！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
虚拟机无法多个一起打开
520sys: 你说的没错
虚拟机无法多个一起打开
CSDN-Ada助手: 恭喜你开始了博客创作！标题看起来很有趣。或许在接下来的博客中，你可以分享一些解决虚拟机无法多个一起打开的方法，或者是一些关于虚拟机的其他使用技巧和经验。期待看到更多精彩的内容！加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。