python爬取网页有乱码怎么解决_python - 爬虫获取网站数据,出现乱码怎么解决。...

问 题

#!/usr/bin/python

# -*- coding: utf-8 -*-

import urllib2

import re

import HTMLParser

class WALLSTREET:

def __init__(self, baseUrl):

self.url = baseUrl

def get_html_content(self):

url = self.url

response = urllib2.urlopen(url)

str = response.read()

print str

baseUrl="https://wallstreetcn.com/live/global" #华尔街见文url

ws = WALLSTREET(baseUrl)

ws.get_html_content()

以上是代码,写的很简单,但是print出来的是乱码

尝试了 print str.decode(“utf-8“”)

但是报错

UnicodeDecodeError: 'utf8' codec can't decode byte 0x8b in position 1: invalid start byte

解决方案

str = response.read()这句有两个问题:

1、str是内置关键字必须更改为其他变量名

2、查看网页源代码的编码方式,如果为utf-8在read()后加.decode('utf-8'),若为其他可以相应解码

小建议这种小程序写个函数会比用类来更加方便,无论是使用还是实现

wx.jpg

扫一扫关注IT屋

微信公众号搜索 “ IT屋 ” ,选择关注与百万开发者在一起

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值