爬虫系列笔记二urllib库的简介、爬虫初体验

urllib库的使用

一个类型和六个方法

一个类型
HTTPResponse类型
六个方法

  1. read:
    以字节为单位顺序读取
    content=response.read(5)
  2. readline
    每次读取一行
    content=response.readline()
  3. readlines
    一行一行读取直到文件读取结束
    content=response.readlines()
  4. getcode
    返回状态码
    print(response.getcode())
  5. geturl
    返回访问的url地址
    print(response.geturl())
  6. getheader
    返回状态信息
    print(response.getheaders())
# 使用urllib来获取百度首页的源码
import urllib.request

#定义一个url 为先要访问的地址
url='http://www.baidu.com'

#模拟浏览器向服务器发送请求 response响应
response = urllib.request.urlopen(url)

#查看response的类型
print(type(response))

#读取五个字节
content=response.read(5)
print(content)

# 读取一行
content=response.readline()
print(content)

# # 一行一行读取
content=response.readlines()
print(content)

# # 获取连接状态
print(response.getcode())

# # 获取当前访问的url
print(response.geturl())

# # 获取状态信息
print(response.getheaders())

在这里插入图片描述
在这里插入图片描述

使用爬虫进行下载文件

下载网页

下载网页

import urllib.request
url_page='https://baike.baidu.com/item/%E8%94%A1%E5%BE%90%E5%9D%A4/8511458'
urllib.request.urlretrieve(url_page,"我不是小黑子.html")
下载图片

在网上随便找的一张图片

import urllib.request
url_img='https://p3.ssl.qhimgs1.com/sdr/400__/t01e52238e1e88a4ac3.jpg'
urllib.request.urlretrieve(url_img,"只因太美.jpg")
下载视频

在网上随便找的一个视频

import urllib.request
url_video='https://vd4.bdstatic.com/mda-kadry3irvdgsubcw/sc/mda-kadry3irvdgsubcw.mp4?v_from_s=hkapp-haokan-hnb&auth_key=1665752709-0-0-f719b6d3200c9fa650c03ae76a255e08&bcevod_channel=searchbox_feed&pd=1&cd=0&pt=3&logid=2109193509&vid=10092267884025094585&abtest=104959_1&klogid=2109193509'
urllib.request.urlretrieve(url_video,"只因.mp4")

视频链接查找如下
在这里插入图片描述

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值