- 博客(1)
- 资源 (1)
- 收藏
- 关注
原创 Python爬虫mac版本项目
爬虫概念、工具和HTTP 1.什么爬虫 爬虫就是模拟客户端(浏览器)发送网络请求,获取响应,按照规则提取数据的程序 模拟客户端(浏览器)发送网络请求 : 照着浏览器发送一模一样的请求,获取和浏览器一模一样的数据 2.爬虫的数据去哪了 呈现出来:展示在网页上,或者是展示在app上 进行分析:从数据中寻找一些规律 3.需要的软件和环境 python3 黑马python基础班15天...
2020-01-02 20:09:12 459
python爬虫mac版本猪精原创
python mac版爬虫
- 豆瓣电视爬虫案例
### xpath和lxml
- xpath
- 一门从html中提取数据的语言
- xpath语法
- xpath helper插件:帮助我们从`elements`中定位数据
- 1. 选择节点(标签)
- `/html/head/meta` :能够选中html下的head下的所有的meta标签
- 2. `//` :能够从任意节点开始选择
- `//li` :当前页面上的所有的li标签
- `/html/head//link` :head下的所有的link标签
- 3. `@符号的用途`
- 选择具体某个元素:`//div[@class='feed']/ul/li`
- 选择class='feed'的div下的ul下的li
- `a/@href` :选择a的href的值
- 4. 获取文本:
- `/a/text()` :获取a下的文本
- `/a//text()` :获取a下的所有的文本
- 5. 点前
- `./a` 当前节点下的a标签
- lxml
- 安装:pip install lxml
- 使用
```pthon
from lxml import etree
element = etree.HTML("html字符串")
element.xpath("")
```
2020-01-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人