python使用lxml库爬取短视频

最新推荐文章于 2024-05-20 11:31:07 发布

HardessGod

最新推荐文章于 2024-05-20 11:31:07 发布

阅读量705

点赞数

分类专栏： python 文章标签： python 爬虫 lxml xpath etree

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/HardessGod/article/details/86574024

版权

Python是一种计算机程序设计语言。是一种动态的、面向对象的脚本语言，最初被设计用于编写自动化脚本(shell)，随着版本的不断更新和语言新功能的添加，越来越多被用于独立的、大型项目的开发。

目前python的开发越来越广泛，设计到web、后端、桌面应用程序、软件开发、科学统计等方面。其广泛性、灵活性、移植性、易读性、简单性等特点越来越收欢迎。在大数据时代，我们获取大量数据的途径之一就是使用python来爬取数据，然后使用MYSQL数据来存储数据，使用大数据分析工具进行数据处理。

下面来说一下今天的主题，爬虫。目前在python中各种获取网页源码的库有很多，第一种使用bs4中的BeautifSoup库来获取网页源代码；第二种使用lxml中的etree模块来获取网页源码等等，今天来说一下，比较简单的使用etree来爬取网站数据。

1、lxml和XPath

lxml是python的一个解析库，支持HTML和XML的解析，支持XPath解析方式，而且解析效率非常高。XPath 即XML路径语言，它是一门在XML文档中查找信息的语言，它最初是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索。XPath的选择功能十分强大，它提供了非常简明的路径选择表达式，另外，它还提供了超过100个内建函数，用于字符串、数值、时间的匹配以及节点、序列的处理等，几乎所有我们想要定位的节点，都可以用XPath来选择。XPath使用路径表达式在xml文档中选取节点，这里注意需要逐级表现要选取节点的父子关系。下面主要说一下Xpath的用法：

1.1 XPath符号

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python使用lxml库爬取短视频

Python是一种计算机程序设计语言。是一种动态的、面向对象的脚本语言，最初被设计用于编写自动化脚本(shell)，随着版本的不断更新和语言新功能的添加，越来越多被用于独立的、大型项目的开发。目前python的开发越来越广泛，设计到web、后端、桌面应用程序、软件开发、科学统计等方面。其广泛性、灵活性、移植性、易读性、简单性等特点越来越收欢迎。在大数据时代，我们...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。