网络爬虫
文章平均质量分 94
名本无名
生物信息工程师,日常工作: Python 和 R 数据处理、分析及可视化等。还有其他。。。
展开
-
网络爬虫 —— 配置文件解析
ini格式的变种非常多,默认的解析器只具备一些常用的功能,我们可以在创建解析器是指定一些行为。例如参数可用于指明是否接受不带值的属性delimiters用于指定分隔键和值的子字符串注释的前缀用于指定插值方式,可以使用类指定更高级的语法,或使用None来禁用插值语法扩展插值插值可以跨越多个层级,使用方式形如,如果省略,则表示作用于当前小节。例如,对如下配置文件进行解析[default][Paths][Others]# '$80'原创 2024-06-20 09:59:34 · 1070 阅读 · 0 评论 -
网络爬虫 —— xml2 和 lxml
从这些函数名称可以看出,操作结点看起来像是在操作一个列表,即将所有的子结点归结为一个列表,可以不断为其添加新的结点,并给每个节点添加了顺序索引,方便访问。例如,结点的添加和删除。函数来创建对应的结点对象,该对象相当于一个容器,能够不断为其添加不同的子结点,子结点也可以是另一个结点。对于单个结点来说,它就是一个根结点,不存在其父结点或子结点,我们可以使用不同的函数为其添加各种关系,如添加或删除子结点、兄弟结点等。来访问标签的属性,其返回的是结点自身的属性,在修改其值时,也会影响结点对应的属性值。原创 2024-06-19 11:19:35 · 1434 阅读 · 0 评论 -
网络爬虫 —— XPath 与 CSSSelect
超文本标记语言(HTML)和可扩展标记语言(XML)是两种结构相似的标记语言,其中HTML主要用于展示数据,专注于数据的外观,且标签固定;而XML主要被设计用于传输和携带数据信息,专注于数据的内容,没有预定义的标签,需要自行定义。这两种标记语言所定义的内容结构是大致相同的,都是以一种树结构的形式存储。例如,对于XML文件,我们可以简单具有自我描述性的语法来定义数据原创 2024-06-17 11:31:29 · 1144 阅读 · 0 评论
分享