爬虫系列笔记二urllib库的简介、爬虫初体验

最新推荐文章于 2022-11-03 10:17:32 发布

想offer的第n天

最新推荐文章于 2022-11-03 10:17:32 发布

阅读量457

点赞数 1

分类专栏： python之爬虫文章标签：爬虫 python 开发语言

本文链接：https://blog.csdn.net/h91er/article/details/127326829

版权

python之爬虫专栏收录该内容

13 篇文章 1 订阅

订阅专栏

urllib库的使用

一个类型和六个方法

一个类型 ：
HTTPResponse类型
六个方法：

read：
以字节为单位顺序读取
content=response.read(5)
readline
每次读取一行
content=response.readline()
readlines
一行一行读取直到文件读取结束
content=response.readlines()
getcode
返回状态码
print(response.getcode())
geturl
返回访问的url地址
print(response.geturl())
getheader
返回状态信息
print(response.getheaders())

# 使用urllib来获取百度首页的源码
import urllib.request

#定义一个url 为先要访问的地址
url='http://www.baidu.com'

#模拟浏览器向服务器发送请求 response响应
response = urllib.request.urlopen(url)

#查看response的类型
print(type(response))

#读取五个字节
content=response.read(5)
print(content)

# 读取一行
content=response.readline()
print(content)

# # 一行一行读取
content=response.readlines()
print(content)

# # 获取连接状态
print(response.getcode())

# # 获取当前访问的url
print(response.geturl())

# # 获取状态信息
print(response.getheaders())

在这里插入图片描述

使用爬虫进行下载文件

下载网页

import urllib.request
url_page='https://baike.baidu.com/item/%E8%94%A1%E5%BE%90%E5%9D%A4/8511458'
urllib.request.urlretrieve(url_page,"我不是小黑子.html")

下载图片

在网上随便找的一张图片

import urllib.request
url_img='https://p3.ssl.qhimgs1.com/sdr/400__/t01e52238e1e88a4ac3.jpg'
urllib.request.urlretrieve(url_img,"只因太美.jpg")

下载视频

在网上随便找的一个视频

import urllib.request
url_video='https://vd4.bdstatic.com/mda-kadry3irvdgsubcw/sc/mda-kadry3irvdgsubcw.mp4?v_from_s=hkapp-haokan-hnb&auth_key=1665752709-0-0-f719b6d3200c9fa650c03ae76a255e08&bcevod_channel=searchbox_feed&pd=1&cd=0&pt=3&logid=2109193509&vid=10092267884025094585&abtest=104959_1&klogid=2109193509'
urllib.request.urlretrieve(url_video,"只因.mp4")

视频链接查找如下
在这里插入图片描述