本章所讲内容:
1、 爬虫的概念
2、 Beautifulsoup 概念
3、 beautifulsoup操作
实战:爬取百度贴吧图片
实战:爬取不得姐视频
1、 爬虫的概念
爬虫(spider:网络蜘蛛):是一个用脚本代替浏览器请求服务器获取服务器资源的程序。
爬虫的用处
数据收集
数据的范围,数据存储
数据比对
倒买倒卖
模拟操作
模拟登陆
暴力登陆
代码登陆
浏览器驱动登陆
评论、购票
自动化测试,压力测试
接口操作
爬虫的原理:
说到底,我们的爬虫是模拟web请求,不论学习什么框架我们都需要对http协议的请求和响应有所了解:
简单的了解一下这幅图。
2、beautifulsoup
如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Beautiful Soup,有了它我们可以很方便地提取出HTML或XML标签中的内容,实在是方便,这一节就让我们一起来感受一下Beautiful Soup的强大吧。
什么是Beautiful Soup