python-23:爬取第一个网页的源码

在这个项目中,我们使用到的网址是

http://product.yesky.com/more/506001_31372_photograph_1.shtml

首先是第一个网页源码的爬取,整体代码跟上一个类似,但是为了能让大家更熟悉代码的编写,建议从头开始再自己敲一遍

#!/uer/bin/env python
# -*- coding: UTF-8 -*-
__author__ = '217小月月坑'
'''
获取网页源码
'''

import urllib2

url = 'http://product.yesky.com/more/506001_31372_photograph_1.shtml'
user_agent = 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:40.0) Gecko/20100101 Firefox/40.0'
headers = {'User-Agent':user_agent}
try:
    request = urllib2.Request(url,headers=headers)
    response = urllib2.urlopen(request)
    print response.read()
except urllib2.URLError,e:
    if hasattr(e,"code"):
        print e.code
    if hasattr(e,"reason"):
        print e.reason

好了,第一步爬取网页的源码就这么简单,我们来看输出结果

25125336_PpcL.jpg

等等,怎么回事,输出结果中为什么会有乱码?

好吧只能上网查资料

"源网页编码和爬取下来后的编码转换不一致。如源网页为gbk编码的字节流,而我们抓取下后程序直接使用utf-8进行编码并输出到存储文件中,这必然会引起乱码"

所以解决的方法只能是解码,先找出网页的编码方式,再将爬取下来的网页源码按网页的编码方式进行解码,要实现这个功能,在python中使用decode()方法

Python decode()方法
描述
Python decode() 方法以 encoding 指定的编码格式解码字符串。默认编码为字符串编码。
语法
decode()方法语法:
str.decode(encoding='UTF-8',errors='strict')
参数
encoding -- 要使用的编码,如"UTF-8"。
errors -- 设置不同错误的处理方案。默认为 'strict',意为编码错误引起一个UnicodeError。 其他可能得值有 'ignore', 'replace', 'xmlcharrefreplace', 'backslashreplace' 以及通过 codecs.register_error() 注册的任何值。
返回值
该方法返回解码后的字符串。
相应的,有解码就会有编码,python中使用 encode()方法进行编码,参数与decode()一样

在python爬虫代码中,要解码其实很简单,将urllib2.urlopen()中返回的内容直接使用decode函数解码即可

比如在前面写的源码中,只要将

contents = response.read()

改成

contents = response.read().decode("gbk")

就可以了

这里说一下,gbk

gbk是极视界网页使用的编码方式,那么怎么知道一个网页所使用的编码方式是什么呢?

1. 按F12调处调试界面,找到Content-Type 这项,后面就是网页源码的编码格式

25125337_SMbe.jpg

2. 在网页源码中一般会写有编码格式 <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />


那么,修改之后的输出是什么样的呢?

25125337_7mHP.jpg

OK,乱码的问题已经解决了

转载于:https://my.oschina.net/u/2429887/blog/535328

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值