python_爬虫进度_1

目录

爬虫有几步:

1.获取网页内容

2.解析网页内容

3.存储和分析数据

取决于需求:

DDoS攻击:

HTML, CSS, JavaScript


爬虫有几步:


1.获取网页内容


通过代码给网站服务器发送请求,它会返回给我们网页上的内容,渲染内容为了让用户看起来更好看(用代码获取的内容,没有得到渲染,所以更加原始)

2.解析网页内容


将想要的内容提取出来

3.存储和分析数据


取决于需求:


①.如果是为了收集数据集,那这一步就是把数据存储进数据库
②.如果是为了分析数据趋势,那这一步把数据做成可视化图表
③.如果是为了做舆情监控,这一步就是用AI做文本情绪分析
这些步骤适用于一个网页内容的情况,还可以给一串网网址,让程序一个个去爬取.
或者让程序以某个网址为根,顺着把那个网页上的链接指向的地址也爬取一遍

DDoS攻击:

DDoS攻击: 通过给服务器发送海量高频的请求,让网站资源被耗尽,无法服务其他用户
可以查看网站的robots.txt文件, 了解可爬取的网页路径范围(会指明哪些网业允许爬取,哪些不允许

先学HTTP请求: 通过发送HTTP请求获取网页内容
然后学python的requests库,学完以后就可以通过它发送HTTP请求
学网页结构,了解HTML格式
然后学python的Beautiful Soup库, 它能帮我们解析获取到的HTML内容,把我们真正想要的内容提取出来

HTML, CSS, JavaScript

HTML: 定义了网页的结构和信息
CSS: 定义网页的样式
JavaScript: 定义用户和网页的交互逻辑

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值