python 版权符号_在版权符号上美化组失败

我收到一个Unicode错误:UnicodeEncodeError: 'charmap' codec can't encode character u'\xa9' in position 822: character maps to

这似乎是一个标准的版权符号,在HTML中是&copy。我一直找不到一个办法来摆脱这一切。我甚至尝试了一个自定义函数来用空格替换copy,但是同样的错误也失败了。import sys

import pprint

import mechanize

import cookielib

from bs4 import BeautifulSoup

import html2text

import lxml

def MakePretty():

def ChangeCopy(S):

return S.replace(chr(169)," ")

br = mechanize.Browser()

# Cookie Jar

cj = cookielib.LWPCookieJar()

br.set_cookiejar(cj)

# Browser options

br.set_handle_equiv(True)

#br.set_handle_gzip(True)

br.set_handle_redirect(True)

br.set_handle_referer(True)

br.set_handle_robots(False)

# Follows refresh 0 but not hangs on refresh > 0

br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)

# User-Agent (this is cheating, ok?)

br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]

# The site we will navigate into, handling its session

# Open the site

br.open('http://www.thesitewizard.com/faqs/copyright-symbol.shtml')

html = br.response().read()

soup = BeautifulSoup(html)

print soup.prettify()

if __name__ == '__main__':

MakePretty()

我怎样才能通过版权标志变得漂亮呢?我在网络上到处寻找解决方案,但都没有结果(或者我可能不理解,因为我对Python和scraping还不太熟悉)。

谢谢你的帮助。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值