python解析外部实体_用lxml分析url html时加载外部实体失败

最新推荐文章于 2022-12-23 12:12:40 发布

Debra Resnicoff

最新推荐文章于 2022-12-23 12:12:40 发布

阅读量258

点赞数

文章标签： python解析外部实体

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_33971721/article/details/113515721

版权

我正在尝试解析提供的url中的表情符号。这是一本关于数据争论的书，帮助我理解数据分析。这是教科书中的逐字代码，最后给出了错误。我听说过使用urllib2的建议，但是这个练习的重点是使用lxml。这是可以实现的，还是这个例子已经过时了？您能提供一些细节来运行它，解析emojis，然后返回列表吗。from lxml import html

page = html.parse('http://www.emoji-cheat-sheet.com/')

proper_headers = page.xpath('//h2|//h3')

proper_lists = page.xpath('//ul')

all_emoji = []

for header, list_cont in zip(proper_headers, proper_lists):

section = header.text

for li in list_cont.getchildren():

emoji_dict = {}

spans = li.xpath('div/span')

if len(spans):

link = spans[0].get('data-src')

if link:

emoji_dict['emoji_link'] = li.base_url + link

else:

emoji_dict['emoji_link'] = None

emoji_dict['emoji_handle'] = spans[1].text_content()

else:

emoji_dict['emoji_link'] = None

emoji_dict['emoji_handle'] = li.xpath('div')[0].text_content()

emoji_dict['section'] = section

all_emoji.append(emoji_dict)

print all_emoji

错误：

^{pr2}$

Debra Resnicoff

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python解析外部实体_用lxml分析url html时加载外部实体失败

我正在尝试解析提供的url中的表情符号。这是一本关于数据争论的书，帮助我理解数据分析。这是教科书中的逐字代码，最后给出了错误。我听说过使用urllib2的建议，但是这个练习的重点是使用lxml。这是可以实现的，还是这个例子已经过时了？您能提供一些细节来运行它，解析emojis，然后返回列表吗。from lxml import htmlpage = html.parse('http://www.em...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。