mysql 轮训取数据,网页如何批量提取数据以及导出数据_视频教程 - 八爪鱼采集器...

本视频为八节课中的第5节。将主要介绍提取数据中字段设置和采集后的数据导出。

提取数据:添加特殊字段、自定义抓取方式、格式化数据、备用位置、自定义合并方式等

自定义定位元素方式:

常在八爪鱼自动生成的定位xpath有问题时进行使用。即如何修改某个字段所用于定位的xpath,更准确的找所需数据。

备用位置的使用:

八爪鱼提取字段时,默认网页结构一致,每个字段都是在页面里固定的位置。

但是存在某些特殊情况,当某字段在不同的页面,是处于不同的位置时,可以用八爪鱼的备选位置功能。

数据格式化的作用:

通过正则表达式等一系列操作,对数据进行清洗处理,使之更符合需求,更加规整,结构化。

如从一大堆数据中,筛选出现图片链接,邮箱等等。

自定义合并方式应用场景:

提取数据里面的自定义合并方式,一般用于将多个字段追加至同一个字段。

例如:新闻正文分页合并等,可将多个页面的信息合并到一个页面中。

本地采集数据如有采到重复数据。将在点击“导出数据”后提示是否去除重复,可选将全部数据导出也可选去重后导出。

本地数据在导出后不会自动清除,下次可以再次导出,或清除数据。

云采集数据如有采到重复数据,将在入库前自动去重,即您所查看到数据均是不重复数据。

云采集数据在导出后不会自动清除,下次可以再次导出或清除数据。数据在云端只保存3个月,以采集时间进行计算,超期将自动清除。

云采集数据按状态分类:

全部数据:该任务所有的数据,每次云采集数据会进行累计,如未清除则一直可查看导出。

未导出数据:新采集到的数据,从未导出过,不过何种导出格式或方式,只要导出过一次,都不在是未导出数据。

数据导出格式/方式:

Excel表格文件(每个文件最多2万条数据,大于2万将自动拆分多个文件进行导出。如单行数据过长,该行会发生数据截断。)

CSV文本文件(每个文件最多2万条数据,大于2万将自动拆分多个文件进行导出。单行数据过长,不会进行截断。)

HTML网页文件(一行数据一个文件,如采集了100条数据,选此格式将导出100个文件)

导出到数据库,支持SQL Server,MySQL,Oracle 这三种类型的数据库。支持自动导出到数据库,将按计划定时导出未导出数据。

API接口导出,API文档参考 http://www.bazhuayu.com/tutorial/new-data-api

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值