后羿采集器快速入门----一款没有编程经验也能轻松使用的数据采集软件

后羿采集器快速入门

一、前言

不知道大家有没有苦恼于如何快速获取网页上的数据?想要进行大量重复性的操作但又要花费大量时间经历学习爬虫,这对于没啥编程基础的朋友们来说简直太不友好了!那么有没有一个软件,能够通过傻白甜式的操作,达到跟爬虫脚本一样的效果呢?

今天小编就要来推荐一款数据采集神器:后羿采集器啦!

后羿采集器(网站点这里!)是一款基于人工智能技术(已经到了人均人工智能吗)的数据采集软件,它能借助计算机视觉的技术和概念,自动识别采集内容,即使你没有任何编程基础,也能完成数据采集工作。例如下面的结构化数据采集,不需要编写一条语句!

说的再多不如动手试一试,下面本文将带来最基础的软件操作教程,保证一看就会!


二、软件安装

在官网https://www.houyicaiji.com/上选择立即下载,一路安装即可。


三、软件使用

安装好后打开的界面如下图所示,是不是感到一阵茫然?没关系,我们一项一项来看~

首先呢,我们做一个项目当然要对项目进行归档啦,这里我们需要新建一个分组!

这个加号图标就是新建分组!我们尝试创建一个分组Test01。

此时,我们可以在左侧栏找到Test01,点击看看,目前还没有任何任务

我们这里直接使用智能模式创建一个新任务!

不出意外的话,会弹出如下界面。我们先试试手动输入网址!

譬如,我们选择国科大新闻网进行数据采集:

将该网址输入到采集器中:

在这里插入图片描述

选择立即创建,很快啊,我们就能在采集器中看到该网页了!

在这里插入图片描述

通过上图我们可以发现,采集器自动识别了列表类型的页面,并且在下页显示为高亮!

如果不能正确识别的话,没有关系,我们还能手动进行监督修正!

在这里插入图片描述

在这里插入图片描述

这个瀑布流分页适用于微博评论那种下拉渲染的列表。

如果我们只需要前5页,可以选择设置采集范围

在这里插入图片描述

在这里插入图片描述

好了,我们现在捕捉到了容器列表,下一步的工作就是应该深入到内容文件中了!

选择深入采集,或者直接手动点击内容页面:

在这里插入图片描述

采集器会自动打开内容连接,并且进行识别!

为了收集到结构化数据,我们可以点击添加字段

在这里插入图片描述

此时,我们的鼠标样式变成了一根魔法棒,点哪里哪里亮!

在这里插入图片描述

我们只需要点击我们需要的文本,就能将其录入字段啦!
在这里插入图片描述

那么接下来,需要做的就是数据预处理了!右击字段,我们可以修改字段名:

在这里插入图片描述

在这里插入图片描述

此时我们发现,这个时间不对呀,急急急,有没有办法修改呢?还是右键,数据处理

在这里插入图片描述

这里我们新建一个步骤,可以按照正则、文本等等方式进行处理!

在这里插入图片描述

将文本替换掉,就得到了我们需要的数据!

在这里插入图片描述

这里我们只做个简单的演示,其他功能还请自行探索~

处理完单页后,我们就可以开始采集啦!

在这里插入图片描述

在这里插入图片描述

选择启动,然后就会转跳到提取页面:

在这里插入图片描述

此时我们看到,程序已经在逐个提取格式化数据了。

采集完成后,我们就可以将数据导出了。

在这里插入图片描述

最终就能收集到结构化的数据啦!

在这里插入图片描述

我们也可以将我们的任务导出,让其他人进行复现!

在这里插入图片描述

在左框框上点击这个像下载一样的图标!

在这里插入图片描述

然后就能选择我们之前保存的任务进行导入啦!最后的步骤也就是再点击一下开始采集!

在这里插入图片描述

  • 10
    点赞
  • 47
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
后羿采集器一款网页数据采集软件,可以帮助用户采集网页数据。根据引用的描述,深入采集时,需要点击深入采集按钮,并保留第一个链接字段。然而,引用中未提及具体关于深入采集403错误的信息。因此,需要进一步了解403错误的含义和可能的原因才能给出准确的答案。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [day12爬虫 - 后羿采集器](https://blog.csdn.net/ZhuuCo/article/details/130491812)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [后羿采集器 3.1.4](https://download.csdn.net/download/weixin_38712899/12910892)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [day12-后羿采集器](https://blog.csdn.net/Ninncc7/article/details/130491760)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值