3. 爬虫的基本原理

3. 原理探究,了解爬虫的基本原理

3.1 爬虫概述

​ 简单地说,爬虫就是获取网页并提取保存信息的自动化程序

3.2 获取网页

​ 获取网页的源代码,向网站的服务器发送一个请求,返回的响应体便是网页源代码

​ 借助urllib、requests库可以实现HTTP请求操作,请求和响应都可以用库提供的数据结构表示,得到相应之后只需解析数据结构中的Body部分

3.3 提取信息

​ 如何在网页源代码中提取想要的数据,使杂乱的数据变得条理清晰

  1. 正则表达式
  2. 根据节点属性、CSS选择器、XPath来提取网页信息的库,如Beatutiful Soup、pyquery、lxml等

3.4 保存数据

  1. 简单保存为TXT文本或JSON数据
  2. 保存到MySQL或者MongoDB等数据库
  3. 借助SFTP保存到远程服务

3.5 抓取什么样的数据

  1. 最常见:HTML源代码
  2. JSON字符串(API接口常用)
  3. 二进制数据——图片、视频、音频

3. 6 JavaScript渲染页面

​ 有时使用urlib和requests抓取网页时,得到的源代码和浏览器中的不同。因为网页使用Ajax、前端模块化工具构建,整个网页可能是由JavaScript渲染出来的,原始HTML是一个空壳

​ 可使用Selenium、Splash的库来模拟JavaScript渲染

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值