Automa爬取采集元素属性的方法(以采集网址属性href为例)

最新推荐文章于 2024-06-21 08:30:00 发布

flatbean

最新推荐文章于 2024-06-21 08:30:00 发布

阅读量506

点赞数

分类专栏： Automa学习文章标签：自动化

本文链接：https://blog.csdn.net/sinat_26076325/article/details/134432913

版权

Automa学习专栏收录该内容

7 篇文章 6 订阅

订阅专栏

Automa爬取采集元素属性的方法(以采集网址属性href为例)

前面的帖子一直在研究如何采集网页上可见的文本内容，一般都是使用【获取文本】这个功能，后来在爬取谷歌的搜索结果时，需要采集网站的网址，网站的网址在页面中属于链接的属性，使用原来的方法爬取回来的是不精准的数据。
经过摸索发现，有个专门采集网页元素属性的功能，名称就叫做【属性】，使用起来非常方面，特别适合爬取网页链接。

在这里插入图片描述

具体做法如下：
1、在流程中加入采集属性的功能框；
2、用Chrome浏览器打开要采集的网页，按F12进入调试模式，在需要采集网址的位置【图中编号1的位置】，选中然后点右键，点检查；
在这里插入图片描述
3、在下面看到代码后，在对应的代码位置【图中编号2】的位置，选中有网址的代码段，点右键，选复制，选复制Xpath，得到 Xpath值为： //[@id=“arc-srp_120”]/div/div[4]/div/div/div[1]/div/div/span/a
4、接下来，把Xpath中的方括号[]及里面的内容都删掉，变为：
//[@id=“arc-srp_120”]/div/div/div/div/div/div/div/span/a
把这个值放入Xpath选择器下面的文本框【见步骤1】；
在这里插入图片描述
5、选中【多选】【等待选择器】【见图中步骤2】
6、在图中步骤3处，写入我们要采集的网址属性值，herf,这个属性是在网页源代码中看到的。

在这里插入图片描述
7、在图中步骤4中，为采集到的网址数据指定一个存放的地方，这里我们指定一个表格中的字段weblink来存储采集到的网址。（这个存储的字段是在表格中提前定义好的，表格的定义在下面这个图的位置）

这个问题讲清楚了。

flatbean

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
Automa爬取采集元素属性的方法(以采集网址属性href为例)

前面的帖子一直在研究如何采集网页上可见的文本内容，一般都是使用【获取文本】这个功能，后来在爬取谷歌的搜索结果时，需要采集网站的网址，网站的网址在页面中属于链接的属性，使用原来的方法爬取回来的是不精准的数据。3、在下面看到代码后，在对应的代码位置【图中编号2】的位置，选中有网址的代码段，点右键，选复制，选复制Xpath，得到 Xpath值为： //2、用Chrome浏览器打开要采集的网页，按F12进入调试模式，在需要采集网址的位置【图中编号1的位置】，选中然后点右键，点检查；
复制链接

扫一扫