urllib库的使用
一个类型和六个方法
一个类型 :
HTTPResponse类型
六个方法:
- read:
以字节为单位顺序读取
content=response.read(5) - readline
每次读取一行
content=response.readline() - readlines
一行一行读取直到文件读取结束
content=response.readlines() - getcode
返回状态码
print(response.getcode()) - geturl
返回访问的url地址
print(response.geturl()) - getheader
返回状态信息
print(response.getheaders())
# 使用urllib来获取百度首页的源码
import urllib.request
#定义一个url 为先要访问的地址
url='http://www.baidu.com'
#模拟浏览器向服务器发送请求 response响应
response = urllib.request.urlopen(url)
#查看response的类型
print(type(response))
#读取五个字节
content=response.read(5)
print(content)
# 读取一行
content=response.readline()
print(content)
# # 一行一行读取
content=response.readlines()
print(content)
# # 获取连接状态
print(response.getcode())
# # 获取当前访问的url
print(response.geturl())
# # 获取状态信息
print(response.getheaders())
使用爬虫进行下载文件
下载网页
下载网页
import urllib.request
url_page='https://baike.baidu.com/item/%E8%94%A1%E5%BE%90%E5%9D%A4/8511458'
urllib.request.urlretrieve(url_page,"我不是小黑子.html")
下载图片
在网上随便找的一张图片
import urllib.request
url_img='https://p3.ssl.qhimgs1.com/sdr/400__/t01e52238e1e88a4ac3.jpg'
urllib.request.urlretrieve(url_img,"只因太美.jpg")
下载视频
在网上随便找的一个视频
import urllib.request
url_video='https://vd4.bdstatic.com/mda-kadry3irvdgsubcw/sc/mda-kadry3irvdgsubcw.mp4?v_from_s=hkapp-haokan-hnb&auth_key=1665752709-0-0-f719b6d3200c9fa650c03ae76a255e08&bcevod_channel=searchbox_feed&pd=1&cd=0&pt=3&logid=2109193509&vid=10092267884025094585&abtest=104959_1&klogid=2109193509'
urllib.request.urlretrieve(url_video,"只因.mp4")
视频链接查找如下