Python爬虫学习（一）

最新推荐文章于 2024-07-08 00:01:13 发布

小柴~

最新推荐文章于 2024-07-08 00:01:13 发布

阅读量209

点赞数

分类专栏：爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_42695959/article/details/120610763

版权

1.使用urllib库urllib库是python内置的HTTP请求库，包含4个模块：1.request：是最基本的http请求模块，可以用来模拟发送请求，就像在浏览器里输入网址按回车一样，只需要给库方法传入URL和其他参数，就可以实现这个过程了。2.error：异常处理模块。3.parse：一个工具模块，提供许多URL处理方法，比如拆分，解析，合并等。4.robotparser：主要用来识别网站的robot.txt文件，然后判断哪些网站可以爬，它用的比较少。1.1发送请求1.urlopen(

摘要由CSDN通过智能技术生成

1.使用urllib库

urllib库是python内置的HTTP请求库，包含4个模块：
1.request：是最基本的http请求模块，可以用来模拟发送请求，就像在浏览器里输入网址按回车一样，只需要给库方法传入URL和其他参数，就可以实现这个过程了。
2.error：异常处理模块。
3.parse：一个工具模块，提供许多URL处理方法，比如拆分，解析，合并等。
4.robotparser：主要用来识别网站的robot.txt文件，然后判断哪些网站可以爬，它用的比较少。
1.发送请求
1.urlopen()方法
使用urlopen()方法模拟浏览器发送请求，以python官网为例：

# -*- coding: utf-8 -*-
import urllib.request

response=urllib.request.urlopen('http://www.python.org')
#爬取python官网
print(response.read().decode('utf-8'))

print(type(response))

用type（）方法查看输出类型，是一个HTTPResponse类型的对象，主要包含read(),readinto(),getheader(name),getheader(),fileno(

最低0.47元/天解锁文章

小柴~

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫学习（一）

1.使用urllib库urllib库是python内置的HTTP请求库，包含4个模块：1.request：是最基本的http请求模块，可以用来模拟发送请求，就像在浏览器里输入网址按回车一样，只需要给库方法传入URL和其他参数，就可以实现这个过程了。2.error：异常处理模块。3.parse：一个工具模块，提供许多URL处理方法，比如拆分，解析，合并等。4.robotparser：主要用来识别网站的robot.txt文件，然后判断哪些网站可以爬，它用的比较少。1.1发送请求1.urlopen(
复制链接

扫一扫