Automa爬取采集元素属性的方法(以采集网址属性href为例)

Automa爬取采集元素属性的方法(以采集网址属性href为例)

前面的帖子一直在研究如何采集网页上可见的文本内容,一般都是使用【获取文本】这个功能,后来在爬取谷歌的搜索结果时,需要采集网站的网址,网站的网址在页面中属于链接的属性,使用原来的方法爬取回来的是不精准的数据。
经过摸索发现,有个专门采集网页元素属性的功能,名称就叫做【属性】,使用起来非常方面,特别适合爬取网页链接。

在这里插入图片描述

具体做法如下:
1、在流程中加入采集属性的功能框;
2、用Chrome浏览器打开要采集的网页,按F12进入调试模式,在需要采集网址的位置【图中编号1的位置】,选中然后点右键,点检查;
在这里插入图片描述
3、在下面看到代码后,在对应的代码位置【图中编号2】的位置,选中有网址的代码段,点右键,选复制,选复制Xpath,得到 Xpath值为: //[@id=“arc-srp_120”]/div/div[4]/div/div/div[1]/div/div/span/a在这里插入图片描述
4、接下来,把Xpath中的方括号[]及里面的内容都删掉,变为:
//
[@id=“arc-srp_120”]/div/div/div/div/div/div/div/span/a
把这个值放入Xpath选择器下面的文本框【见步骤1】;
在这里插入图片描述
5、选中【多选】【等待选择器】【见图中步骤2】
6、在图中步骤3处,写入我们要采集的网址属性值,herf,这个属性是在网页源代码中看到的。

在这里插入图片描述
7、在图中步骤4中,为采集到的网址数据指定一个存放的地方,这里我们指定一个表格中的字段weblink来存储采集到的网址。(这个存储的字段是在表格中提前定义好的,表格的定义在下面这个图的位置)
在这里插入图片描述
这个问题讲清楚了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值