Python爬虫简单常用方法

最新推荐文章于 2024-05-27 13:16:19 发布

system_is_error

最新推荐文章于 2024-05-27 13:16:19 发布

阅读量710

点赞数

文章标签： urllib 爬虫-python

本文链接：https://blog.csdn.net/longdreams/article/details/78368482

版权

Q：什么是Urllib库？
A：Urllib库是Python中一个功能强大，用于操作URL，并在做爬虫项目时经常要用到的库。在Python2.X中，分为Urllib库和Urllib2库，但是在Python3.X之后合并到UrlLib中。

Q：Urllib升级合并后，常见的变化有哪些呢？
A：(1):在Python2.X中使用import.urllib2—对应的，在Python3.X中会使用import.urllib.request，urlib.error
(2)：在Python2.X中使用import.urlparse—对应的，在Python3.X中会使用import.urllib.parse
(3)：在Python2.X中使用import.urlopen—对应的，在Python3.X中会使用import.urllib.request.urlopen
(4)：在Python2.X中使用import.urlencode—对应的，在Python3.X中会使用import.urllib.parse.urlencode
(5)：在Python2.X中使用import.quote—对应的，在Python3.X中会使用import.urllib.request.quote
(6)：在Python2.X中使用cookielib.CookieJar—对应的，在Python3.X中会使用http.CookieJar
(6)：在Python2.X中使用cookielib.CookieJar—对应的，在Python3.X中会使用http.CookieJar
(7)：在Python2.X中使用urllib2.Request—对应的，在Python3.X中会使用urllib.request.Request

常用方法
1. urllib.request.urlopen(“网址”) 返回文件对象
例如：file = urllib.request.urlopen(“https://www.baidu.com“)
此时可以通过文件对象的三种读取方法：.read(),readlines(),readline()

url.request.urlretrieve(“https://www.baidu.com“,filename=”本地文件地址”) 将爬取到的信息写入本地文件中
注意：urlretrieve执行过程中会产生一些缓存，如要清除这些缓存，可以使用urlcleanup()进行清除。如：urllib.request.urlcleanup() 。
爬取的网页对象.info() 返回与当前环境有关的信息。
如：file = urllib.request.urlopen(“https://www.baidu.com“)
file.info()
爬取的网页对象.getcode() 返回当前爬取网页的状态码
爬取的网页对象.geturl() 返回当前正在爬取的url地址

url乱码解决方案
Q：为什么会产生url乱码？
A：一般来说，url标准中只会允许出现一部分ASCII字符，比如数字，字母和部分符号，而其他的一些字符和汉字等等是不符合url标准，所以在url中如果有不合法字符就会产生乱码，这个就需要url编码才能解决。在urllib库中提供了urllib.request.quote()进行编码。
例如需要对网址”https://www.baidu.com“编码，可以通过下列代码实现：
urllib.request.quote(“https://www.baidu.com“)

既然存在编码，如果需要解码，可以通过urllib.request.unquote(“编码后的网址”)来进行解码。

以上是Python3.X中urllib库的简单运用

system_is_error

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫简单常用方法

Q：什么是Urllib库？ A：Urllib库是Python中一个功能强大，用于操作URL，并在做爬虫项目时经常要用到的库。在Python2.X中，分为Urllib库和Urllib2库，但是在Python3.X之后合并到UrlLib中。Q：Urllib升级合并后，常见的变化有哪些呢？ A：(1):在Python2.X中使用import.urllib2—对应的，在Python3.X中会使用impo
复制链接

扫一扫