目录
爬虫有几步:
1.获取网页内容
通过代码给网站服务器发送请求,它会返回给我们网页上的内容,渲染内容为了让用户看起来更好看(用代码获取的内容,没有得到渲染,所以更加原始)
2.解析网页内容
将想要的内容提取出来
3.存储和分析数据
取决于需求:
①.如果是为了收集数据集,那这一步就是把数据存储进数据库
②.如果是为了分析数据趋势,那这一步把数据做成可视化图表
③.如果是为了做舆情监控,这一步就是用AI做文本情绪分析
这些步骤适用于一个网页内容的情况,还可以给一串网网址,让程序一个个去爬取.
或者让程序以某个网址为根,顺着把那个网页上的链接指向的地址也爬取一遍
DDoS攻击:
DDoS攻击: 通过给服务器发送海量高频的请求,让网站资源被耗尽,无法服务其他用户
可以查看网站的robots.txt文件, 了解可爬取的网页路径范围(会指明哪些网业允许爬取,哪些不允许
先学HTTP请求: 通过发送HTTP请求获取网页内容
然后学python的requests库,学完以后就可以通过它发送HTTP请求
学网页结构,了解HTML格式
然后学python的Beautiful Soup库, 它能帮我们解析获取到的HTML内容,把我们真正想要的内容提取出来
HTML, CSS, JavaScript
HTML: 定义了网页的结构和信息
CSS: 定义网页的样式
JavaScript: 定义用户和网页的交互逻辑