爬虫小试第一天

最新推荐文章于 2024-04-30 19:32:36 发布

bullpride

最新推荐文章于 2024-04-30 19:32:36 发布

阅读量553

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/bullpride/article/details/52165588

版权

Python 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

第一个遇到的问题时编码的问题：

data = "\u5468\u6069\u5e73"
print data.encode('utf-8')
print data.decode('utf-8')
print data.decode('unicode_escape')
print u"\u5468\u6069\u5e73"

输出的结果是：

\u5468\u6069\u5e73
\u5468\u6069\u5e73
周恩平
周恩平

网上查阅信息得到：

web信息中常会遇到“\u4f60\u597d”类型的字符。首先’\u‘开头就基本表明是跟unicode编码相关的，“\u”后的16进制字符串是相应汉字的utf-16编码，decode('unicode_escape')能将此种字符串解码为unicode字符串。

还有

decode将其他编码的字符串转成Unicode编码如：str1.decode('gb2312')是将gb2312编码的str1转换成Unicode编码

encode将Unicode编码的字符串转成其他编码的字符串：str2.encode('gb2312')是将Unicode编码的str2转成gb2312编码

将页面上所有回答者的名字采集下来：

import urllib2
from bs4 import BeautifulSoup
html = urllib2.urlopen('https://www.zhihu.com/explore')
bsObj = BeautifulSoup(html, 'html.parser')
names = bsObj.findAll("", {"class": "zm-item-rich-text expandable js-collapse-body"})
namelist = []
for name in names:
    if 'data-author-name' in name.attrs:
        namelist.append(name.attrs['data-author-name'])

for it in namelist:
    print it.encode('utf-8')