python中Xpath 易错分析

1、text()、string()、data()、点

参考文章源:https://blog.csdn.net/weixin_39285616/article/details/78463091

XML例子:

<book>
    <author>Tom <em>John</em> cat</author>
    <pricing>
        <price>20</price>
        <discount>0.8</discount>
    </pricing>
</book>
使用举例结果
book/author/text()Tom cat
book/author/string()Tom John cat
book/pricing/data()返回分开的20和0.8
book/author/.Tom John cat

text()是一个node test,而string()、data()是一个函数,data可以保留数据类型。此外,还有点号(.)表示当前节点。

2、python里lxml.etree._Element才能使用xpath

str类型的数据不能直接使用xpath,需要转换。
包括requests.get()、requests.Session().get()得到的数据都不能直接使用xpath。
scrapy框架里的response是可以直接使用xpath的。
在这里插入图片描述
在这里插入图片描述

3、输出文本(text、string)

在这里插入图片描述
在XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档节点(或称为根节点)。
xpath选取的元素节点不能直接输出为文本,输出文本可以有下面几种方式
在这里插入图片描述
xpath选取的元素节点,也可以通过etree.tostring()转成str
在这里插入图片描述
这里etree.tostring里面不加encoding = “utf-8”,输出的可能是HTML实体
在这里插入图片描述
html实体可以通过html.unescape转换
在这里插入图片描述

4、xpath输出的是列表类型

不管是元素节点还是文本节点都是列表类型
在这里插入图片描述
在这里插入图片描述
对于节点,必须先把列表序列化后再取文本,除了用切片,还可以用for in序列化
在这里插入图片描述
在这里插入图片描述
因为xpath输出的是列表类型,所以可以用join把它转为str(前提是文本节点、元素节点不行)
在这里插入图片描述

5、多个class值

div[@属性=“属性值”],获取div里该属性值的节点
例如:

<div class='a'>test</div>
div[@class="a"]

如果有多个class值,例如:

<div class='a b'>test</div>
div[contains(@class,"a")]

或者

div[contains(@class,"a") and contains(@class,"b")]
 #它会取class同时有a和b的元素

6、scrapy框架中的get、extract

get() 、getall() 是新版本的方法,extract() 、extract_first()是旧版本的方法。

前者更好用,取不到就返回None,后者取不到就raise一个错误。

推荐使用新方法,官方文档中也都改用前者了。

总结:
对于scrapy.selector.unified.SelectorList对象

get() == extract_first()

返回的是一个list,里面包含了多个string

getall() == extract()

返回的是string,list里面第一个string

参考源:https://www.zhihu.com/question/63370553

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
蛋白质是生物体普遍存在的一类重要生物大分子,由天然氨基酸通过肽键连接而成。它具有复杂的分子结构和特定的生物功能,是表达生物遗传性状的一类主要物质。 蛋白质的结构可分为四级:一级结构是组成蛋白质多肽链的线性氨基酸序列;二级结构是依靠不同氨基酸之间的C=O和N-H基团间的氢键形成的稳定结构,主要为α螺旋和β折叠;三级结构是通过多个二级结构元素在三维空间的排列所形成的一个蛋白质分子的三维结构;四级结构用于描述由不同多肽链(亚基)间相互作用形成具有功能的蛋白质复合物分子。 蛋白质在生物体内具有多种功能,包括提供能量、维持电解质平衡、信息交流、构成人的身体以及免疫等。例如,蛋白质分解可以为人体提供能量,每克蛋白质能产生4千卡的热能;血液里的蛋白质能帮助维持体内的酸碱平衡和血液的渗透压;蛋白质是组成人体器官组织的重要物质,可以修复受损的器官功能,以及维持细胞的生长和更新;蛋白质也是构成多种生理活性的物质,如免疫球蛋白,具有维持机体正常免疫功能的作用。 蛋白质的合成是指生物按照从脱氧核糖核酸(DNA)转录得到的信使核糖核酸(mRNA)上的遗传信息合成蛋白质的过程。这个过程包括氨基酸的活化、多肽链合成的起始、肽链的延长、肽链的终止和释放以及蛋白质合成后的加工修饰等步骤。 蛋白质降解是指食物的蛋白质经过蛋白质降解酶的作用降解为多肽和氨基酸然后被人体吸收的过程。这个过程在细胞的生理活动发挥着极其重要的作用,例如将蛋白质降解后成为小分子的氨基酸,并被循环利用;处理错误折叠的蛋白质以及多余组分,使之降解,以防机体产生错误应答。 总的来说,蛋白质是生物体内不可或缺的一类重要物质,对于维持生物体的正常生理功能具有至关重要的作用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值