python网络爬虫笔记01:基础知识与简单案例

本文介绍了Python网络爬虫的基础知识,包括网页的服务器端和客户端渲染方式、HTTP协议的请求头和响应头、URL结构,以及GET和POST请求的区别。通过实例展示了包的安装、搜狗、百度翻译和豆瓣的爬虫实验,帮助读者理解网络爬虫的基本原理和实践应用。
摘要由CSDN通过智能技术生成

目录

1. 网页的两种渲染方式

2 HTTP协议

2.1 请求头

2.2 响应头

3 包的安装与搜狗爬虫实验

4 百度翻译爬虫实验

5 豆瓣爬虫实验


1. 网页的两种渲染方式

1 服务器端渲染:在服务器端直接将数据和html整合在一起,统一返回给浏览器;此时,我们在页面源代码中可以看到网页的完整内容。 

2 客户端渲染:第一次请求浏览器端仅仅是返回一个html的骨架;第二次请求拿到数据,进行展示。此时,我们在网页源代码中是看不到数据的,需要借助抓包工具,找到数据请求的链接。

通用爬虫与聚焦爬虫:

  • 通用爬虫:满足一般的爬虫需求,如百度;但是对视频和图片的爬取能力较弱
  • 聚焦爬虫:针对具体的应用目的,尽量排除与需求无关的信息

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小薛引路

喜欢的读者,可以打赏鼓励一下

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值