DAY10

宴师

于 2021-08-19 21:06:48 发布

阅读量58

点赞数 1

分类专栏：自学编程陪伴学习 python 文章标签： python

本文链接：https://blog.csdn.net/qq_59418188/article/details/119811092

版权

自学编程同时被 3 个专栏收录

59 篇文章 2 订阅

订阅专栏

陪伴学习

56 篇文章 0 订阅

订阅专栏

python

22 篇文章 0 订阅

订阅专栏

本文介绍了爬虫的基本概念，包括模拟浏览器发送请求和接收响应，以及通用爬虫和聚焦爬虫的分类。爬虫主要用于数据采集、软件测试和网络安全。文中以Python为例，展示了如何使用`urllib`库爬取并保存百度首页的HTML内容。爬虫技术步骤包括发起请求、解析数据、筛选信息和存储数据。

摘要由CSDN通过智能技术生成

第十三讲

爬虫介绍

爬虫简介

模拟浏览器，发送请求，获取响应

原则上只要是客户端浏览器能做的事情，爬虫都能做

爬虫也只能获取客户端浏览器所展示的数据
爬虫分类

通用爬虫

聚焦爬虫

聚焦爬虫是面向特定主题需求的一种网络爬虫程序，它和通用爬虫的区别在于只抓取特点我们需要的信息

根据目的可以分为
1. 功能性爬虫
2. 数据增量爬虫
根据url地址和对应的页面内容是否改变，数据增量爬虫可分为
1. 地址变内容也变的爬虫
2. 地址不变内容变的爬虫
url就是网址等
爬虫作用

数据采集

软件测试

网络安全
技术步骤
1. 爬取数据，实际上就是根据一个网址向服务器发起网络请求，获取服务器返回的数据
2. 解析数据，将服务器返回的数据转换为人容易理解的样式
3. 筛选数据，从大量的数据中筛选出需要的数据
4. 存储数据

from urllib.request import Request
from urllib.request import urlopen

# 爬取百度首页
url1 = 'http://www.baidu.com'
# 用一个变量保存
request = Request(url=url1)
response = urlopen(request)
# print(response.read().decode('utf-8'))
# 获取的数据是源代码要用decode进行解码操作
html_string = response.read().decode('utf-8')
with open('baidu.html', 'w', encoding='utf-8') as fp:
    fp.write(html_string)

宴师

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
DAY10

第十三讲爬虫介绍爬虫简介模拟浏览器，发送请求，获取响应原则上只要是客户端浏览器能做的事情，爬虫都能做爬虫也只能获取客户端浏览器所展示的数据爬虫分类通用爬虫聚焦爬虫聚焦爬虫是面向特定主题需求的一种网络爬虫程序，它和通用爬虫的区别在于只抓取特点我们需要的信息根据目的可以分为功能性爬虫数据增量爬虫根据url地址和对应的页面内容是否改变，数据增量爬虫可分为地址变内容也变的爬虫地址不变内容变的爬虫url就是网址等爬虫作用数据采集软件测试网
复制链接

扫一扫