爬虫---最简单的爬虫程序

Python2

# -*- coding:utf-8 -*-
import urllib2

# 向指定的url发送请求,并返回服务器响应的类文件对象
response = urllib2.urlopen("http://www.baidu.com")
# 类文件对象 支持文件对象的操作方法,如read()方法读取文件全部内容,返回字符串
html = response.read().decode("utf-8")
print html
import urllib2

user_agent = "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"
ua_header = {"User-Agent": "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"}
request = urllib2.Request("http://www.baidu.cn", data=None, headers=ua_header)      # get 请求
request = urllib2.Request("http://www.baidu.cn", data=data, headers=ua_header)      # post请求

# 也可以通过调用Request.add_header() 添加/修改一个特定的header。可以是User-Agent信息。
request.add_header("User-Agent", user_agent)
request.add_header("Connection", "keep-alive")
# 也可以通过调用Request.get_header() 查看一个特定的header信息。可以是User-Agent信息。
request.get_header("User-agent")
request.get_header(header_name="Connection")

response = urllib2.urlopen(request)
html = response.read().decode("utf-8")
print html


# response 是服务器响应的类文件,除了支持文件操作的方法外,还支持以下常用的方法:
# 返回 HTTP的响应码,成功返回200,4服务器页面出错,5服务器问题
print response.getcode()   
# 返回 返回实际数据的实际URL,防止重定向问题
print response.geturl()
# 返回 服务器响应的HTTP报头
print response.info()

Python3

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值