爬虫---最简单的爬虫程序

最新推荐文章于 2024-05-27 13:16:19 发布

qq_34802511

最新推荐文章于 2024-05-27 13:16:19 发布

阅读量1.1k

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/qq_34802511/article/details/96860913

版权

爬虫专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Python2

# -*- coding:utf-8 -*-
import urllib2

# 向指定的url发送请求，并返回服务器响应的类文件对象
response = urllib2.urlopen("http://www.baidu.com")
# 类文件对象 支持文件对象的操作方法，如read()方法读取文件全部内容，返回字符串
html = response.read().decode("utf-8")
print html

import urllib2

user_agent = "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"
ua_header = {"User-Agent": "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"}
request = urllib2.Request("http://www.baidu.cn", data=None, headers=ua_header)      # get 请求
request = urllib2.Request("http://www.baidu.cn", data=data, headers=ua_header)      # post请求

# 也可以通过调用Request.add_header() 添加/修改一个特定的header。可以是User-Agent信息。
request.add_header("User-Agent", user_agent)
request.add_header("Connection", "keep-alive")
# 也可以通过调用Request.get_header() 查看一个特定的header信息。可以是User-Agent信息。
request.get_header("User-agent")
request.get_header(header_name="Connection")

response = urllib2.urlopen(request)
html = response.read().decode("utf-8")
print html


# response 是服务器响应的类文件，除了支持文件操作的方法外，还支持以下常用的方法：
# 返回 HTTP的响应码，成功返回200，4服务器页面出错，5服务器问题
print response.getcode()   
# 返回 返回实际数据的实际URL，防止重定向问题
print response.geturl()
# 返回 服务器响应的HTTP报头
print response.info()

Python3

qq_34802511

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫---最简单的爬虫程序

Python2# -*- coding:utf-8 -*-import urllib2# 向指定的url发送请求，并返回服务器响应的类文件对象response = urllib2.urlopen("http://www.baidu.com")# 类文件对象支持文件对象的操作方法，如read()方法读取文件全部内容，返回字符串html = response.read().deco...
复制链接

扫一扫

专栏目录