python抓取一个页面

iteye_8719

于 2012-05-17 11:09:05 发布

阅读量138

点赞数

CC 4.0 BY-SA版权

分类专栏： python 文章标签： python html 页面抓取

本文链接：https://blog.csdn.net/iteye_8719/article/details/82331980

python 专栏收录该内容

9 篇文章

订阅专栏


#coding=utf-8
'''
Created on 2012-5-17

@author: chenhuiting
'''

import sys
import urllib2
import gzip
import StringIO

# 页面url
url = "http://www.915.com/news/201005/25-052512922010.html"
# 页面编码
page_encode = "utf8"

request = urllib2.Request(url)
request.add_header("Accept-encoding", "gzip")
usock = urllib2.urlopen(request)
page = usock.read()
# 处理gzip过的页面
if usock.headers.get('content-encoding', None) == 'gzip':
    page = gzip.GzipFile(fileobj=StringIO.StringIO(page)).read()

# 转unicode(gbk/utf8)
if not isinstance(page, unicode):
    page = unicode(page, page_encode)

print(page)