Python爬虫开发（三）—— 数据提取方法

最新推荐文章于 2023-09-19 11:13:52 发布

良月柒

最新推荐文章于 2023-09-19 11:13:52 发布

阅读量2.2k

点赞数 1

分类专栏： Python 文章标签： Python Python爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lkp1603645756/article/details/81393416

版权

Python 专栏收录该内容

5 篇文章 1 订阅

订阅专栏

json

数据交换格式，看起来像python类型（列表，字典）的字符串
使用json之前，需要导入
json.loads
- 把json字符串转化为python类型
  - Python
    - json.loads(json字符串)
哪里会返回json的数据
- 浏览器切换到手机版
- 抓包app
json.dumps
- 把Python类型转换为json字符串
  - Python
    - json.dumps（{"a":"a","b":"2"}）
    - json.dumps(rets,ensure_ascii=False,indent=2)
      - ensure_ascii ：让中文显示成中文
      - indent　：能够让下一行在上一行的基础上空格
豆瓣电影爬虫案例

xpath和lxml

xpath
- 一门从html中提取数据的语言
xpath语法
- xpath helper插件：帮助我们从elements中定位数据
- 1.选择节点（标签）
  - /html/head/meta ：能够选中html下的head下的所有meta标签
- 2. // ：能够从任意节点开始选择
  - //li ：当前页面上的所有li标签
  - /html/head//link ：head下的所有link标签
- 3. @符号的用途
  - 选择具体某个元素：//div[@class='feed-infinite-wrapper']/ul/li
    - 选择class='feed-infinite-wrapper‘的div下的ul下的li
  - a/@href ：选择a的href的值
- 4.获取文本
  - /a/text() ：获取a下的文本
  - /a//test() ：获取a下的所有的文本
- 5.当前
  - ./a ：当前节点下的a标签
lxml
- 安装：pip install lxml
- 使用
  - Python
    - from lxml import etree
    - element = etree.HTML("html字符串")
    - element.xpath("")

写爬虫的讨论

1.url
- 知道url地址的规律和总的页码数：构造url地址的列表
- start_url
2.发送请求，获取响应
- requests
3.提取数据
- 返回json字符串：json模块
- 返回的是html字符串：lxml模块配合xpath提取数据
4.保存

基础知识点的学习

format：字符串格式化的一种方式
- Python
  - "孤独{}键客".format(1)
  - "孤独{}键客".format([1,2,3])
  - "孤独{}键客".format({1,2,3})
  - "孤独{}键客{}".format({1,2,4},[1,3,4])
  - "孤独{}键客{}".format({1,2,3},1)
列表推导式
- 帮助我们快速的生成包含一堆数据的列表
- Python
  - [i+10 for i in range(10)] --->[10,11,12，...19]
  - ["10月{}日".format(i) for i in range(1,10)] ---> ["10月1日","10月2日",...,"10月9日"]
字典推导式
- 帮助我们快速的生成包含一堆数据的字典
  - Python
    - {i+10：for in range(10)} #--->（10:0,11:1,12:3....19:9）
    - {“a{}”.format(i):10 for i in range(3)} #--->{"a0":10,"a1":10,"a2":10}
三元运算符
- if后面的条件成立，就把if前面的结果复制给a，否则把else后面的结果复制给a
  - Python
    - a = 10 if 4>3 else 20 #a=10
    - a = 10 if 4<3 else20 #a=20

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
Python爬虫开发（三）—— 数据提取方法

json数据交换格式，看起来像python类型（列表，字典）的字符串使用json之前，需要导入 json.loads 把json字符串转化为python类型 Python json.loads(json字符串) 哪里会返回json的数据浏览器切换到手机版抓包app json.dumps 把Python类型转换为json字符串 Pyth...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

良月柒 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。