DAY10

56 篇文章 0 订阅
22 篇文章 0 订阅
本文介绍了爬虫的基本概念,包括模拟浏览器发送请求和接收响应,以及通用爬虫和聚焦爬虫的分类。爬虫主要用于数据采集、软件测试和网络安全。文中以Python为例,展示了如何使用`urllib`库爬取并保存百度首页的HTML内容。爬虫技术步骤包括发起请求、解析数据、筛选信息和存储数据。
摘要由CSDN通过智能技术生成

第十三讲

爬虫介绍

  1. 爬虫简介

    模拟浏览器,发送请求,获取响应

    原则上只要是客户端浏览器能做的事情,爬虫都能做

    爬虫也只能获取客户端浏览器所展示的数据

  2. 爬虫分类

    通用爬虫

    聚焦爬虫

    ​ 聚焦爬虫是面向特定主题需求的一种网络爬虫程序,它和通用爬虫的区别在于只抓取特点我们需要的信息

    根据目的可以分为

    1. 功能性爬虫

    2. 数据增量爬虫

    根据url地址和对应的页面内容是否改变,数据增量爬虫可分为

    1. 地址变内容也变的爬虫

    2. 地址不变内容变的爬虫

    url就是网址等

  3. 爬虫作用

    数据采集

    软件测试

    网络安全

  4. 技术步骤

    1. 爬取数据,实际上就是根据一个网址向服务器发起网络请求,获取服务器返回的数据
    2. 解析数据,将服务器返回的数据转换为人容易理解的样式
    3. 筛选数据,从大量的数据中筛选出需要的数据
    4. 存储数据
from urllib.request import Request
from urllib.request import urlopen

# 爬取百度首页
url1 = 'http://www.baidu.com'
# 用一个变量保存
request = Request(url=url1)
response = urlopen(request)
# print(response.read().decode('utf-8'))
# 获取的数据是源代码要用decode进行解码操作
html_string = response.read().decode('utf-8')
with open('baidu.html', 'w', encoding='utf-8') as fp:
    fp.write(html_string)
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

宴师

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值