urllib基础、超时设置、Get与Post请求、异常处理、浏览器伪装、Python新闻爬虫实战

最新推荐文章于 2024-05-11 19:28:41 发布

Ssssun_369

最新推荐文章于 2024-05-11 19:28:41 发布

阅读量880

点赞数 1

分类专栏： python爬虫文章标签： urllib基础超时设置异常处理浏览器伪装 python新闻爬虫实战

本文链接：https://blog.csdn.net/S_123789/article/details/100848353

版权

文章目录

urllib基础
超时设置
自动模拟HTTP请求与百度信息自动搜索爬虫实战
自动模拟HTTP请求之自动POST实战
爬虫的异常处理实战
爬虫的浏览器伪装技术实战
Python新闻爬虫实战

urllib基础

urllib库：Python内置的Http请求库，不需要安装。
2.包含4个模块：

request:最基本的HTTP请求模块，可以用来模拟发送请求。
error:异常处理模块，若出现请求错误，我们可捕获异常，进行重试或其他操作保证程序不会意外终止。
parse：一个工具模块，提供许多URL处理放法，比如拆分、解析、合并等。
robotparser：主要用来识别网站的robots.txt文件，然后判断哪些网站可以爬，那些不可以。

3.几个常用的方法：

import urllib.request

#urlretrieve(网址，本地文件存储地址) 直接下载网页到本地
urllib.request.urlretrieve("http://www.baidu.com","F://新建文件夹//did.html")
urllib.request.urlcleanup()

#看网页相应的简介信息info()
file = urllib.request.urlopen("https://read.douban.com/provider/all")
print(file.info())

#返回网页爬取的状态码getcode()
print(file.getcode())

#获取当前访问网页的url,geturl()
print(file.geturl())

超时设置

超时设置：有的网站能很快被访问，有的访问很慢，通过超时设置，合理分配时间能增加我们爬取网页信息的效率。
实战：

import urllib.request
for i in range(50):	
	try:
      		file = urllib.request.urlopen("https://blog.csdn.net/S_123789/article/details/100830233#_84",timeout=2)
        	print(len(file.read().decode("utf-8")))
    	except Exception as err:
        	print("出现异常")
    =========================== RESTART: F:/urllib.py ===========================
    108903
    114184
    110053
    109001
    108480
    107203

最低0.47元/天解锁文章

Ssssun_369

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
urllib基础、超时设置、Get与Post请求、异常处理、浏览器伪装、Python新闻爬虫实战

文章目录urllib基础超时设置自动模拟HTTP请求与百度信息自动搜索爬虫实战自动模拟HTTP请求之自动POST实战爬虫的异常处理实战爬虫的浏览器伪装技术实战Python新闻爬虫实战urllib基础1.urllib库：Python内置的Http请求库，不需要安装。2.包含4个模块：request:最基本的HTTP请求模块，可以用来模拟发送请求。error:异常处理模块，若出现请求错误，...
复制链接

扫一扫

专栏目录