知识点:
-
整理 爬虫面试题
-
添加 爬虫的代码
-
加深 爬虫的理解
-
版本 python3.6
1. 列举您使用过的Python网络爬虫所用到的解析数据包
- Re
- json
- jsonpath
- BeautifulSoup
- pyquery
- lxml
数据提取主要是问解析库,主流的话也就是问一下xpath,bs4和pyquery的使用
2. xpath语法
这节在面试中问的灵活性比较强,问到的可能性应该是比较小,今天就讲一下用法
- 提取xml、html中的数据需要lxml模块和xpath语法配合使用
- xpath定位节点以及提取属性或文本内容的语法
表达式 | 描述 |
---|---|
nodename | 选中该元素 |
/ | 从根节点选取、或者是元素和元素间的过渡 |
// | 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置 |
. | 选取当前节点 |
@ | 选取属性 |
text() | 选取文本 |