Python爬虫基本代码附解析

本文介绍了Python爬虫的基本代码,包括使用urllib2库进行HTTP的GET和POST请求。通过实例展示了如何获取网页内容,以及模拟登录网站的原理。对于GET请求,参数直接附加到URL上;对于POST请求,需要构造请求数据并进行url编码。
摘要由CSDN通过智能技术生成

1、扒取网页和基本代码:

import urllib

response = urllib2.urlopen("http://www.baidu.com") print response.read()

response = urllib2.urlopen("http://www.baidu.com")

print response.read()

首先我们调用的是 urllib2 库里面的 urlopen 方法,传入一个 URL,这个网址是百度首页,协议是 HTTP 协议,当然你也可以把 HTTP 换做 FTP,FILE,HTTPS 等等,只是代表了一种访问控制协议,urlopen 一般接受三个参数,它的参数如下:urlopen(url, data, timeout) 第一个参数 url 即为 URL,第二个参数 data 是访问 URL 时要传送的数据,第三个 timeout 是设置超时时间。 第二三个参数是可以不传送的,data 默认为空 None,timeout 默认为 socket._GLOBAL_DEFAULT_TIMEOUT 第一个参数 URL 是必须要传送的,在这个例子里面我们传送了百度(也可以是任意网址)的 URL,执行 urlopen 方法之后,返回一个 response 对象,返回信息便保存在这里面,response 对象有一个 read 方法,可以返回获取到的网页内

2、Post方式

我们引入了 urllib 库,现在我们模拟登陆 CSDN,当然上述代码可能登陆不进去,因为 CSDN 还有个流水号的字段,没有设置全,比较复杂在这里就不写上去了,在此只是说明登录的原理。一般的登录网站一般是这种写法。 我们需要定义一个

  • 0
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值