Python 爬虫 解决escape问题

爬取某个国外的网址,遇到的编码问题 ,在前段页面 返回的数据是    

亞洲私人珍&#34255

;賣,令仝好分享他為此

所傾注的心血與熱愛。

爬虫源码是:

url = 'http://www.bonhams.com/auctions/24026/lot/120/?category=list&length=100&page=1'

try:
    result = requests.get(url=url).text
except:
    result = requests.get(url=url).text
if 'javascript">setTimeout' in result:
    result = requests.get(url=url).text

如何处理?

  
url = 'http://www.bonhams.com/auctions/24026/lot/120/?category=list&length=100&page=1'

try:
    result = requests.get(url=url).text
except:
    result = requests.get(url=url).text
if 'javascript">setTimeout' in result:
    result = requests.get(url=url).text

from HTMLParser import HTMLParser result_HTMLParser = HTMLParser().unescape(result) print result_HTMLParser

打印原始网页代码

发现编码格式正常

html = '<abc>'
用Python可以这样处理:

import HTMLParser
html_parser = HTMLParser.HTMLParser()
txt = html_parser.unescape(html) #这样就得到了txt = '<abc>'
如果还想转回去,可以这样:

import cgi
html = cgi.escape(txt) # 这样又回到了 html = '&lt;abc&gt'
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值