python_爬虫进度_1

最新推荐文章于 2024-06-17 17:35:06 发布

万恶的罪孽，深渊的凝视

最新推荐文章于 2024-06-17 17:35:06 发布

阅读量192

点赞数

分类专栏： python 文章标签： python 爬虫开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qaq10086pap/article/details/130166486

版权

python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

目录

爬虫有几步:

1.获取网页内容

2.解析网页内容

3.存储和分析数据

取决于需求:

HTML, CSS, JavaScript

爬虫有几步:

1.获取网页内容

通过代码给网站服务器发送请求,它会返回给我们网页上的内容,渲染内容为了让用户看起来更好看(用代码获取的内容,没有得到渲染,所以更加原始)

2.解析网页内容

将想要的内容提取出来

3.存储和分析数据

取决于需求:

①.如果是为了收集数据集,那这一步就是把数据存储进数据库
②.如果是为了分析数据趋势,那这一步把数据做成可视化图表
③.如果是为了做舆情监控,这一步就是用AI做文本情绪分析
这些步骤适用于一个网页内容的情况,还可以给一串网网址,让程序一个个去爬取.
或者让程序以某个网址为根,顺着把那个网页上的链接指向的地址也爬取一遍

DDoS攻击:

DDoS攻击: 通过给服务器发送海量高频的请求,让网站资源被耗尽,无法服务其他用户
可以查看网站的robots.txt文件, 了解可爬取的网页路径范围(会指明哪些网业允许爬取,哪些不允许

先学HTTP请求: 通过发送HTTP请求获取网页内容
然后学python的requests库,学完以后就可以通过它发送HTTP请求
学网页结构,了解HTML格式
然后学python的Beautiful Soup库, 它能帮我们解析获取到的HTML内容,把我们真正想要的内容提取出来

HTML, CSS, JavaScript

HTML: 定义了网页的结构和信息
CSS: 定义网页的样式
JavaScript: 定义用户和网页的交互逻辑

万恶的罪孽，深渊的凝视

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python_爬虫进度_1

先了解爬虫所需要知道的知识
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。