潭州教育可以学python爬虫吗?_什么是爬虫?其运行原理是什么?只有Python才可以吗?...

23461ecbbea09addf78b42e83058e82f.png

爬虫是什么?

本文所说的爬虫不是自然界中的爬行动物,而是运行在网络中的一个自动处理信息的程序

爬虫是一个程序,该程序利用网络请求(HTTP/HTTPS)进行数据的筛选和录入。因为网络信息维度很广泛,像极了蜘蛛网,所以我们将利用网络请求进行数据筛选和录入的程序成为网络蜘蛛(网络爬虫)。

运行原理:

信息在网络上传递的载体大部分是网页数据。爬虫运行的原理就是将网页数据进行解析,去掉超文本标记语言(HTML)等,只保留有用的数据。

案例:

假设我们要从网络上爬取《送别》的歌词,网页如图图示,我们要爬取的内容是红色部分。

89c6aaef1cd4418445a19e1d91830557.png

1. 首先我们分析页面的结构,从而找到了歌词所在的大致的div结构

0cd925ee2c7ec5faca4015cf46afc86a.png

2. 进一步找到路径

3d8560c63ccab8edb05906885d47acc8.png

3. 使用Selector解析工具进行数据解析。

fc3eece264eabfc9be9258aa6a62bcc9.png
源代码

爬虫为什么首选Python:

其实哪种语言都可以编写爬虫,只要该语言能够进行解析response,request等相关的网络请求就行。

Python进行爬虫开发是有其独特的优势,上手快,难度低,第三方插件很完善,开发难度低。这些优点是其他语言不能比拟的,所以Python是编写爬虫的首要语言。

我是一个爱游戏爱倒腾的Python程序猿,想知道哪些爬虫知识?请在下方留言,我会进行专门讲解哦~

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值