Python爬虫基本代码附解析

最新推荐文章于 2024-07-08 17:14:04 发布

OuYangchangjie

最新推荐文章于 2024-07-08 17:14:04 发布

阅读量1.1w

点赞数

文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/ouy_momo/article/details/123462414

版权

本文介绍了Python爬虫的基本代码，包括使用urllib2库进行HTTP的GET和POST请求。通过实例展示了如何获取网页内容，以及模拟登录网站的原理。对于GET请求，参数直接附加到URL上；对于POST请求，需要构造请求数据并进行url编码。

摘要由CSDN通过智能技术生成

1、扒取网页和基本代码：

import urllib

response = urllib2.urlopen("http://www.baidu.com") print response.read()

response = urllib2.urlopen("http://www.baidu.com")

print response.read()

首先我们调用的是 urllib2 库里面的 urlopen 方法，传入一个 URL，这个网址是百度首页，协议是 HTTP 协议，当然你也可以把 HTTP 换做 FTP,FILE,HTTPS 等等，只是代表了一种访问控制协议，urlopen 一般接受三个参数，它的参数如下：urlopen(url, data, timeout) 第一个参数 url 即为 URL，第二个参数 data 是访问 URL 时要传送的数据，第三个 timeout 是设置超时时间。第二三个参数是可以不传送的，data 默认为空 None，timeout 默认为 socket._GLOBAL_DEFAULT_TIMEOUT 第一个参数 URL 是必须要传送的，在这个例子里面我们传送了百度（也可以是任意网址）的 URL，执行 urlopen 方法之后，返回一个 response 对象，返回信息便保存在这里面，response 对象有一个 read 方法，可以返回获取到的网页内

2、Post方式

我们引入了 urllib 库，现在我们模拟登陆 CSDN，当然上述代码可能登陆不进去，因为 CSDN 还有个流水号的字段，没有设置全，比较复杂在这里就不写上去了，在此只是说明登录的原理。一般的登录网站一般是这种写法。我们需要定义一个

最低0.47元/天解锁文章

OuYangchangjie

关注

0
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫基本代码附解析

1、扒取网页和基本代码：import urllibresponse = urllib2.urlopen("http://www.baidu.com") print response.read()response = urllib2.urlopen("http://www.baidu.com")print response.read()首先我们调用的是 urllib2 库里面的 urlopen 方法，传入一个 URL，这个网址是百度首页，协议是 HTTP 协议，当然你也可以把 HTTP 换
复制链接

扫一扫