我正在尝试解析提供的url中的表情符号。这是一本关于数据争论的书,帮助我理解数据分析。这是教科书中的逐字代码,最后给出了错误。我听说过使用urllib2的建议,但是这个练习的重点是使用lxml。这是可以实现的,还是这个例子已经过时了?您能提供一些细节来运行它,解析emojis,然后返回列表吗。from lxml import html
page = html.parse('http://www.emoji-cheat-sheet.com/')
proper_headers = page.xpath('//h2|//h3')
proper_lists = page.xpath('//ul')
all_emoji = []
for header, list_cont in zip(proper_headers, proper_lists):
section = header.text
for li in list_cont.getchildren():
emoji_dict = {}
spans = li.xpath('div/span')
if len(spans):
link = spans[0].get('data-src')
if link:
emoji_dict['emoji_link'] = li.base_url + link
else:
emoji_dict['emoji_link'] = None
emoji_dict['emoji_handle'] = spans[1].text_content()
else:
emoji_dict['emoji_link'] = None
emoji_dict['emoji_handle'] = li.xpath('div')[0].text_content()
emoji_dict['section'] = section
all_emoji.append(emoji_dict)
print all_emoji
错误:
^{pr2}$