Python面试题之爬虫（数据提取）

最新推荐文章于 2022-10-11 18:35:29 发布

郭郭郭二蛋

最新推荐文章于 2022-10-11 18:35:29 发布

阅读量689

点赞数

文章标签： python xpath 爬虫面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/guoguoguoerdan/article/details/105167765

版权

本文总结了Python爬虫面试中关于数据提取的相关知识点，包括常用的解析库如Re、json、BeautifulSoup、lxml等，重点介绍了XPath语法和jsonpath模块的使用。强调在实际操作中，理解各种工具的使用方法和灵活切换解决问题的重要性。

摘要由CSDN通过智能技术生成

知识点：

整理爬虫面试题
添加爬虫的代码
加深爬虫的理解
版本 python3.6

1. 列举您使用过的Python网络爬虫所用到的解析数据包

Re
json
jsonpath
BeautifulSoup
pyquery
lxml

数据提取主要是问解析库，主流的话也就是问一下xpath，bs4和pyquery的使用

2. xpath语法

这节在面试中问的灵活性比较强，问到的可能性应该是比较小，今天就讲一下用法

提取xml、html中的数据需要lxml模块和xpath语法配合使用
xpath定位节点以及提取属性或文本内容的语法

表达式	描述
nodename	选中该元素
/	从根节点选取、或者是元素和元素间的过渡
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置
.	选取当前节点
@	选取属性
text()	选取文本

最低0.47元/天解锁文章

郭郭郭二蛋

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
Python面试题之爬虫（数据提取）

知识点：整理爬虫面试题添加爬虫的代码加深爬虫的理解版本 python3.61. 列举您使用过的Python网络爬虫所用到的解析数据包RejsonjsonpathBeautifulSouppyquerylxml数据提取主要是问解析库，主流的话也就是问一下xpath，bs4和pyquery的使用2. xpath语法这节在面试中问的灵活...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

郭郭郭二蛋 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。