Python爬虫教程（二）

数据湖开发者社区

于 2021-09-22 13:43:31 发布

阅读量157

点赞数

文章标签： python 爬虫 html xpath

原文链接：https://dev.ehualu.com/dev/home/forum/forumDetail?id=1241

版权

一、bs4解析介绍

1．bs4解析：BS4全称是Beatiful Soup，它提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。

2．HTML：用来描述网页的一种语言。

1）HTML指的是超文本标记语言 (Hyper Text Markup Language)

2）HTML 不是一种编程语言，而是一种标记语言 (markup language)

3）标记语言是一套标记标签 (markup tag)

4）HTML 使用标记标签来描述网页

3. HTML常见标签：

h1：一级标签

h2：二级标签

p：段落

body：主体

二、使用bs4解析实战爬取优美图库图片

1. 获取主页面源代码。

2．定位标签，找到主页面源代码中子页面的链接位置。

3. 获取子页面下载链接，得到“href”。

4．子页面下载地址不全，进行子页面下载了解拼接补全。，得到完整下载链接。

5. 获取子页面源代码。

6. 从子页面获取图片下载路径。

7. 下载图片，创建文件夹img，将下载图片存入img文件夹中，取名为下载链接最后一部分（唯一）。

三、xpath解析介绍

XPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。基于XML的树状结构，提供在数据结构树中找寻节点的能力。

1）XML 指可扩展标记语言（EXtensible Markup Language）

2）XML 是一种标记语言，很类似 HTML

3）XML 的设计宗旨是传输数据，而非显示数据

4）XML 标签没有被预定义。您需要自行定义标签。

5）XML 被设计为具有自我描述性。

1.xpath入门，准备一个节点示例。

2. 从节点示例中找到book节点。

3. 获取节点实例中name节点下文本。

4. 获取author节点下所有的nick节点的文本，示例中存在author节点下的nick节点以及author节点下div中的nick节点，下面将全部内容进行输出。

5.常见的命令

//：当前目录中后面所有节点

*：通配符

@：属性

[]：表示索引

[1]：第一条（xpath顺序是从1开始计算）

[@xx=’xxx’] ：表示属性的筛选

./：表示当前节点，相对查找

四、使用xpath实战爬取猪八戒网信息

获取如图中四个信息：店铺、位置、价格、标题

1.获取页面源代码。

2.使用xpath解析，找到整体源代码位置。

3.寻找所需信息位置进行爬取。

4.对输出结果进行整理，输出适合格式，完成猪八戒网信息获取。

数据湖开发者社区

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。