任何人都可以快速获取想要的网页数据,您只需在浏览器的可视化界面上用鼠标点击即可实现,不需要懂Html代码!
简数采集器还能帮你把采集到的数据导出为excel、txt、csv和sql(mysql)等格式的文件,还支持发送到数据库和自定义http接口等。
下面将介绍如何利用简数采集器将互联网网页内容数据进行采集和导出发送,使用步骤如下:
目录
第一步:创建采集任务
进入简数采集器控制台(http://www.keydatas.com/)
点击左侧菜单的按钮【创建采集任务】,输入任务名和要采集的列表页网址,如:https://www.域名.com/
详情页链接可不填,系统会自动识别,然后接着下一步。
如下图:
第二步:完善列表页智能提取链接(可选)
系统会先采用智能算法获取需要采集的详情页链接(多个),用户可以双击打开检查。
如果不是想要的数据,可以点击【列表提取器】进行手动指定,只需要在可视化界面上用鼠标点击。
智能获取结果如下图:
第三步:完善详情页的智能抽取结果(可选)
上一步获取了多个详情页链接后,继续下一步。
系统会使用其中一个详情页链接来智能抽取详情页数据:
title(标题),content(内容),pubDate(日期),author(作者),category(分类)
tag(标签),description(描述),keywords(关键字)
详情页智能抽取结果如下:
如果智能抽取的内容不是想要的,那么可以打开【详情提取器】进行修改,也是在可视化界面上用鼠标点击修改的。
左侧的各个字段可以进行修改或增加删除等操作的。
第四步:启动运行采集
采集规则配置完成后,就可以进行下一步数据采集了,点击启动运行按钮。
简数文章采集器数据采集、存储、导出发送完全云端实现,采集启动后可关闭您的电脑,大大节省了电脑资源和成本。
采集完成的数据结果,可以在该采集任务的【结果数据&导出发送】页面下查看。
第五步:导出数据
在【结果数据&导出发送】页面中点击【导出数据】按钮。
- 选择要导出的文件格式(excel、txt、csv、sql(mysql)、Html);
- 填写要导出的数据数量 ;
- 点击按钮【导出】,导出结果。
采集和导出数据就完成了,是不是十分简单!