python soup findall 第几个元素_python-使用beautifulsoup从RSS feed中解析所有带有子元素的元素...

本文介绍了一种使用Python的BeautifulSoup和lxml库来解析RSS提要的方法。通过示例代码展示了如何提取RSS项中的所有字符串内容,这对于后续的数据处理非常有用。
摘要由CSDN通过智能技术生成

从RSS提要中,如何获取每个项目标签中所有内容的字符串?

输入示例(简体):

TestHello world1

Hi there

Tue, 21 Nov 2011 20:10:10 +0000

Hello world2

Good afternoon

Tue, 22 Nov 2011 20:10:10 +0000

Hello world3

blue paint

Tue, 23 Nov 2011 20:10:10 +0000

我需要一个使用此RSS文件的python函数(我现在正在使用beautifulsoup),并具有遍历每个项目的循环.我需要一个在每个项目中都包含所有字符串的变量.

第一个循环结果示例:

Hello world1

Hi there

Tue, 21 Nov 2011 20:10:10 +0000

这段代码使我得到了第一个结果,但是我如何得到所有下一个?

html_data = BeautifulSoup(xml)

print html_data.channel.item

解决方法:

import BeautifulSoup

doc = BeautifulSoup.BeautifulStoneSoup(xml)

for item in doc.findAll('item'):

for elt in item:

if isinstance(elt,BeautifulSoup.Tag):

print(elt)

这就是您可以使用lxml做相同的事情的方法(出于某种原因,我发现它更容易使用):

import lxml.etree as ET

doc = ET.fromstring(xml)

for item in doc.xpath('//item'):

for elt in item.xpath('descendant::*'):

print(ET.tostring(elt))

标签:python,beautifulsoup,rss

来源: https://codeday.me/bug/20191014/1912464.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值