python爬虫：Urllib库基础与自动模拟HTTP请求

最新推荐文章于 2022-08-22 16:25:44 发布

数据分析阿宇君

最新推荐文章于 2022-08-22 16:25:44 发布

阅读量350

点赞数 1

分类专栏： Python爬虫文章标签： python 网络数据分析数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43412569/article/details/104854718

版权

本文介绍了Python的Urllib库基础，包括urlretrieve()、urlcleanup()、info()、getcode()、geturl()等方法的使用，并讲解了如何设置超时。此外，还详细阐述了模拟HTTP的GET和POST请求，特别是GET请求中的关键字段处理及中文编码问题。

摘要由CSDN通过智能技术生成

1. urllib 基础：urlretrieve()、urlcleanup()、info()、getcode()、geturl()等

1.1 urlretrieve()可以直接将某个网页保存到本地

import urllib.request

url1='https://www.icourse163.org'

urllib.request.urlretrieve(url1,filename='F:\jupyterpycodes\python_pachongfenxi\mooc.html')

('F:\\jupyterpycodes\\python_pachongfenxi\\mooc.html',
 <http.client.HTTPMessage at 0x23374d0c240>)

1.2 urlcleanup(): 将urlretrieve()运行产生的缓存清理掉

import urllib.request

urllib.request.urlcleanup()

1.3 info()：将基本的环境信息展示出来

import urllib.request

url1='https://www.icourse163.org'

file=urllib.request.urlopen(url1)
file.info()

<http.client.HTTPMessage at 0x24ff0b6e710>

1.4 getcode(): 当前爬取的网页的状态码。常用状态码为200/202：爬取正常；403：爬取不正常

import urllib.request

url1='https://www.icourse163.org'

file=urllib.request.urlopen(url1)

file.getcode()

1.5 geturl(): 当前爬取的网页的网址。

import urllib.request

url1='h

最低0.47元/天解锁文章

数据分析阿宇君

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

数据分析阿宇君 CSDN认证博客专家 CSDN认证企业博客

码龄6年

86: 原创

5万+: 周排名

199万+: 总排名

19万+: 访问

: 等级

2572: 积分

80: 粉丝

167: 获赞

40: 评论

538: 收藏

私信

关注

热门文章

分类专栏

Python爬虫 7篇
SQL 28篇
操作系统 1篇
计算机基础 4篇
数据结构 16篇
Python学习笔记 26篇
Hive 6篇
统计学 3篇
可视化 8篇

最新评论

Hive：get_json_object（）函数
yhr297: 这写的什么JB,看看人家Microsoft官网怎么写的https://learn.microsoft.com/zh-cn/azure/databricks/sql/language-manual/functions/get_json_object#syntax
SQL中group/order by 后面跟数字的理解
开发工程师_卢刚: 单纯的加字段名字的话不需要调整其他的排序,只需要关注这个字段本身的排序就行.
python编程题3.5：恺撒密码
Isabella323: 请问这个代码只对大小写字母加密了，没有对特殊字符加密哇
SQL中group/order by 后面跟数字的理解
梦奇pro: 不用数字，用字段名，加字段时不也要调整吗？
python数据结构：队列的应用-热土豆问题
罚酒饮得: 哈哈哈哈哈，对阿，这个博主的初始化给我整懵了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。