爬虫是什么,如何通过爬虫获取贴吧数据?

本章所讲内容:

1、 爬虫的概念
2、 Beautifulsoup 概念
3、 beautifulsoup操作
实战:爬取百度贴吧图片
实战:爬取不得姐视频

1、 爬虫的概念

爬虫(spider:网络蜘蛛):是一个用脚本代替浏览器请求服务器获取服务器资源的程序。

爬虫的用处

数据收集

数据的范围,数据存储

数据比对

倒买倒卖

模拟操作

模拟登陆

暴力登陆

代码登陆

浏览器驱动登陆

评论、购票

自动化测试,压力测试

接口操作

爬虫的原理:

说到底,我们的爬虫是模拟web请求,不论学习什么框架我们都需要对http协议的请求和响应有所了解:

在这里插入图片描述

简单的了解一下这幅图。

2、beautifulsoup

如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Beautiful Soup,有了它我们可以很方便地提取出HTML或XML标签中的内容,实在是方便,这一节就让我们一起来感受一下Beautiful Soup的强大吧。

什么是Beautiful Soup

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值