爬虫小试第一天

第一个遇到的问题时编码的问题:

data = "\u5468\u6069\u5e73"
print data.encode('utf-8')
print data.decode('utf-8')
print data.decode('unicode_escape')
print u"\u5468\u6069\u5e73"
输出的结果是:

\u5468\u6069\u5e73
\u5468\u6069\u5e73
周恩平
周恩平
网上查阅信息得到:

web信息中常会遇到“\u4f60\u597d”类型的字符。首先’\u‘开头就基本表明是跟unicode编码相关的,“\u”后的16进制字符串是相应汉字的utf-16编码,decode('unicode_escape')能将此种字符串解码为unicode字符串。

还有

decode将其他编码的字符串转成Unicode编码如:str1.decode('gb2312')是将gb2312编码的str1转换成Unicode编码

encode将Unicode编码的字符串转成其他编码的字符串:str2.encode('gb2312')是将Unicode编码的str2转成gb2312编码


将页面上所有回答者的名字采集下来:

import urllib2
from bs4 import BeautifulSoup
html = urllib2.urlopen('https://www.zhihu.com/explore')
bsObj = BeautifulSoup(html, 'html.parser')
names = bsObj.findAll("", {"class": "zm-item-rich-text expandable js-collapse-body"})
namelist = []
for name in names:
    if 'data-author-name' in name.attrs:
        namelist.append(name.attrs['data-author-name'])

for it in namelist:
    print it.encode('utf-8')


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值