提取 xml 文件中的 CDATA 数据

最新推荐文章于 2024-06-28 16:06:21 发布

mywang88

最新推荐文章于 2024-06-28 16:06:21 发布

阅读量7.7k

点赞数 2

分类专栏：爬虫文章标签： CDATA xml Python Scrapy xpath

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mywang88/article/details/85260308

版权

本文介绍了如何在Python 3.7.0环境下，利用Scrapy爬虫框架和XPath选择器处理XML文件中CDATA部分的数据。通过直接去除CDATA标记，实现简单暴力的数据提取方法，无需额外依赖。

摘要由CSDN通过智能技术生成

mywang88

2018-12-26

简介

XML 是常见的数据格式。

解析器往往会忽略 XML 文件中 <![CDATA[ 信息 ]]> 区段的内容，但有时我们是需要抓取这些内容的。

搜索了下这个问题，没找到较好的回答，自己解决。

本文的开发场景为：

编程语言：Python 3.7.0
使用了 Scrapy 爬虫框架的 Selector 类和它的 xpath 选择器（方法）
使用了 requests 库

方法

总结为一句话：

直接把整个文档中所有 <![CDATA[ 信息 ]]> 这东西 信息 两边的字符抹掉。

简单暴力，不需要导入其它任何依赖。

XML 文件示例：

<Item>
	<YEAR>

最低0.47元/天解锁文章

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄6年

25
原创

41
点赞

152
收藏

21
粉丝

关注

私信

分类专栏

足迹 7篇
Markdown练习 2篇
Python学习 12篇
数学题 3篇
Java学习 2篇
爬虫 4篇
翻译 1篇
Git学习 1篇

最新评论

十二平均律的数学描述
weixin_37977459: 朱载堉都没有提
十二平均律的数学描述
mywang88: 如果即使你分了 24 或 36 均分，则在选配音阶（五声、七声）的时候，你选的还是 12 均分中的那几个，其它的两两之间基本都没有特别好的共振关系
十二平均律的数学描述
wvrains: 其实还是有点没搞懂，为什么是12，因为24也可以啊，36也不错啊，也符合要求。刚学不太懂这些，博主见谅。我后面再查一查
十二平均律的数学描述
wvrains: 博主讲的很好！我看完了，感觉第6条没必要说，因为如果年利率用任意值n计算（第六条用12计算），然后存n年，最后总额也会变成2万

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。