Python爬虫基础1

最新推荐文章于 2024-07-24 10:38:58 发布

小码蚁啊

最新推荐文章于 2024-07-24 10:38:58 发布

阅读量209

点赞数 1

分类专栏： Python 文章标签：爬虫

本文链接：https://blog.csdn.net/qq_36802726/article/details/79160270

版权

Python 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

环境：

Python版本：3.6
编译器：Pycharm
系统：Win 10

过程：

1、File —> New Project —> Create
2、右击创建的项目 —>New —>Python File
3、开始输入代码

代码段：

import urllib.request

response =urllib.request.urlopen("http://www.baidu.com")
print(response.read())

运行
这里写图片描述
这样网页的源码已经被我们扒下来了

代码解析

response =urllib.request.urlopen("http://www.baidu.com")

urllib.request模块定义了方法和类,帮助打开url(主要是HTTP)在一个复杂的世界——基本和摘要式身份验证,重定向,cookies等等。
urllib.request.urlopen打开网址URL,这可以是一个字符串或一个 Request对象。

urlopen(url,data,timeout)

第一个参数url即为URL，第二个参数data是访问URL时要传送的数据，第三个timeout是设置超时时间。

第二三个参数是可以不传送的，data默认为空None，timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT

第一个参数URL是必须要传送的，在这个例子里面我们传送了百度的URL，执行urlopen方法之后，返回一个response对象，返回信息便保存在这里面。

response.read()

response对象有一个read方法，可以返回获取到的网页内容。

POST和GET数据传送

上面的程序演示了最基本的网页抓取，不过，现在大多数网站都是动态网页，需要你动态地传递参数给它，它做出对应的响应。所以，在访问时，我们需要传递数据给它。最常见的情况是什么？对了，就是登录注册的时候呀。

把数据用户名和密码传送到一个URL，然后你得到服务器处理之后的响应，这个该怎么办？下面让我来为小伙伴们揭晓吧！

数据传送分为POST和GET两种方式，两种方式有什么区别呢？

最重要的区别是GET方式是直接以链接形式访问，链接中包含了所有的参数，当然如果包含了密码的话是一种不安全的选择，不过你可以直观地看到自己提交了什么内容。POST则不会在网址上显示所有的参数，不过如果你想直接查看提交了什么就不太方便了，大家可以酌情选择

附

Python 3.x版本后的urllib和urllib2
现在的Python已经出到了3.6.4
在Python 3以后的版本中，urllib2这个模块已经不单独存在（也就是说当你import urllib2时，系统提示你没这个模块），urllib2被合并到了urllib中，叫做urllib.request 和 urllib.error 。
urllib整个模块分为urllib.request, urllib.parse, urllib.error。
例：
其中urllib2.urlopen()变成了urllib.request.urlopen()
urllib2.Request()变成了urllib.request.Request()

小码蚁啊

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫基础1

环境：Python版本：3.6 编译器：Pycharm 系统：Win 10过程：1、File —> New Project —> Create 2、右击创建的项目 —>New —>Python File 3、开始输入代码代码段：import urllib.requestresponse =urllib.request.urlopen("ht
复制链接

扫一扫

专栏目录