数据采集概述

目录

概念:

数据采集的具体意义

一、数据来源分类

从数据产生的物质种类:

从数据的所有权

   二、不同来源对应的数据采集

        1.硬件传感器,物联网数据采集应基于用角度的简要架构图

       2.自主所有 软件形式 的数据采集: 

        3、开源  软件形式的  web数据采集: 

三、采集数据的 存储形式和存储介质选择

 1、从存储的容量:

2、从存储介质和使用时间开销:


概念:

从数据的来源(如传感器、应用端口、文件、数据库等)汇总到目的地的过程,包含收集、网络传送、处理和存储数据的过程,以便进行后续的数据分析、数据挖掘等其他使用。

数据采集涉及数据的 源端获取、 数字化、信号调理器、数据信号传输、数据存储,数据采集是所有类型的研究、分析和决策的重要关键阶段,是 数据价值 最大化所需的最基础工作,是AI赋能社会的基石。

数据采集的具体意义

  1. 支持决策‌:通过数据采集,企业可以更好地了解市场需求,优化产品和服务,提高竞争力‌。
  2. 提升服务质量‌:在医疗领域,数据采集有助于疾病的预防和治疗,提升医疗服务水平;在政府管理中,数据采集帮助制定更科学的政策,提升公共服务质量‌。
  3. 优化运营‌:在商业领域,数据采集用于市场调研、客户分析、产品开发等方面,帮助企业做出更明智的决策‌
  4. 优化生产:企业可以更加精确地了解生产过程中的物料消耗、能源消耗、过程质量、过程安全等情况,从而实现智能化的高效生产。

一、数据来源分类

        1.从数据产生的物质种类:
        数据的产生主要来源于以下几种物质种类‌:
  •    ‌传感器和物联网设备:随着物联网的快速发展,越来越多的传感器被应用于各个领域,包括工业、农业、交通、医疗等。这些传感器可以感知和记录各种物理量,如温度、湿度、压力、光照、摄像头等。传感器产生的数据量庞大,且具有实时性,为大数据的产生提供了重要的来源‌。机器设备运转生成的过程数据:巨量机器在运行过程中也会产生大量数据。这些数据通常来自于各种设备和系统的运行状态、性能参数等,对于工业生产和自动化控制具有重要意义‌。
  • ‌社交媒体和互联网:随着互联网的普及和社交媒体的兴起,用户在互联网上产生了大量的数据。社交媒体平台如Facebook、Twitter、Instagram等每天都有数以亿计的用户在上面发布文字、图片、视频等内容。这些用户生成的数据包含了丰富的信息,如用户兴趣、社交关系、消费行为等。同时,互联网上还有大量的网页、博客、论坛等网站,用户在浏览和搜索过程中产生的点击、评论、收藏等行为也会产生大量的数据‌。
  • ‌‌企业和政府数据的业务或服务:企业和政府机构在日常运营和管理过程中产生了大量的数据。企业在销售、生产、采购、财务等方面产生的数据,如销售额、库存量、价格变化、交易记录、评价、售后等,可以用于企业的业务分析和决策支持。政府部门在政策、法规、通知、人口统计、经济发展、环境监测、网上办事等方面产生的数据,如人口普查数据、GDP数据、环境污染数据、网上办事等结果或过程数据,可以用于社会管理和政策制定‌。
    总之,可简单分为以下两大类。

         硬件传感器:偏硬件,需要物联网的知识。

          软件:应用程序端口的数据流输出、文件、数据库。

        2.从数据的可支配使用权:
        从不同的角度有不同的划分详细如下:

          1) 从数据流通运转的区域划分:

  •  ‌ 私域数据:这是企业、事业等单位拥有的一方数据,包括用户基本信息、行为数据、CRM数据等。私域数据是宝贵的资产,可用于精细化运营和个性化营销‌。
  • ‌公域数据:这是企业、事业等单位不具有所有权的外部数据,如社交媒体数据、开放数据等。这些数据提供更广泛的信息来源,帮助企业了解市场趋势、竞争对手和消费者偏好‌。

         2)从 数据支配权的拥有方划分:

  •  第一方数据:企业、事业等单位自有数据,包括私域数据和其他自有数据。这些数据具有高度可信度和独特性,可为所有者提供深入了解用户和业务的数据基础‌。
  • 第二方数据:与企业或自媒体资源方等建立合作关系可获得的对方数据。
  • ‌‌第三方数据:来自数据市场、运营商或其他垂直领域的数据提供方。可购买这些第三方数据来增强自身数据的广度和深度,扩大受众群体,优化营销策略和决策过程‌。 

     3) 从数据采集技术需要的支撑来看,数据主要分为两类:

  •    自主使用数据:

         应用程序开发里 规划并编程实现收集  最源端 采集的数据项,存储成文件、数据库表或直接发送给特定网络端口向上游传输,采集手段主要通过  flume或kafka、dataX、kettle、sqoop等工具实现源和目的端数据的高效采集汇总。

  •    第三方数据:

        开源、公开的,如果是web公开的数据可以爬虫爬取。然而,通过解密方式获取非公开数据是违法的;如果爬虫对目标网站造成干扰或破坏,如导致服务器宕机等是违法的;爬取任何涉及个人隐私的数据,并用于非法途径的,无论数据是否公开,如姓名、身份证件号码、通信通讯联系方式、住址等‌;爬取数据用于个人研究或公司内部使用一般是合法的,但如果用于商业牟利且造成严重侵权,可能会面临法律责任。 在进行大规模数据采集时,应遵守网站的Robots协议,并咨询相关法律人士。
        非开源非公开的数据购买付费后,可获取使用资格,可通过API获取数据。

   二、不同来源对应的数据采集

        1.硬件传感器,物联网数据采集 基于用户使用角度的简要架构图

        需要购买采集硬件设备、嵌入式等下位机开发和上位机的采集软件开发。 

       2.自主使用 软件形式 的数据采集: 

        软性来源    数据具体的数据采集工具和技术:Flume、Kafka、dataXkettlesqoop,主要架构概述:

     其中:

        数据源可以是文件、应用的URI端口、数据库、HDFS等丰富的软性资源类型。

        数据采集可以离线、定时、实时,数据内容可以分类也可以不分类。

        采集可以以配置文件方式实现,也可以以API方式开发实现。

        3、开源  软件形式的  web数据采集: 

爬虫的定义:爬虫实质是 程序模拟浏览器发送  携带URL等参数   的请求->接收服务器响应->提取有用的数据->存放于数据库或文件中的程序。

注意:

  • 爬取行为必须是为了合法的目的,如科学研究、数据分析、市场调研等,而不能用于非法目的,如商业欺诈、侵犯他人隐私等‌。
  • 尊重Robots协议‌:在爬取前,检查阅读 网站的 Robots.txt文件,确保不违反网站规定。Robots协议是网站所有者用来指导爬虫行为的一种标准,遵循这一协议是爬虫开发的基本要求‌。

三、采集数据的 存储形式和存储介质选择

 1、从存储的管理与容量:
数据的存储 (组织管理方式)
文件 :操作系统管理。 提供基础的数据管理GUI服务和数据使用API。
Ø 基本文件  存放位置、基本组织管理等。存储容量有限,由操作系统各自文件管理机制决定。
Ø 分布式文件系统。 Hadoop 分布式平台的 HDFS ,海量数据存储。
数据库 :建立在操作系统之上,专门的数据管理系统
Ø 存储数据大量数据,具有数据间关系、数据完整性、一致性、安全性等基础功能支撑,同时数据的使用更多的接口。 提供的数据管理GUI服务、数据使用API丰富。
Ø SQL 数据库( RDB )、 NOSQL 数据库
数据 仓库 :可融合数据库、数据文件的数据,专门为 OLAP 服务( oracle 数据仓库 hive hadoop 文件系统之上)  ), 提供的数据管理GUI服务、数据使用API丰富。

        例如:如下windows、linuxu、Oralcle默认、sqlserver2000文件的存储容量如下:

       总结:从存储形式看,如何选择主要由提供的  数据存储容量、数据管理GUI服务、数据使用API 的丰富性决定。

2、从存储介质和使用时间开销:

        在分级存储系统中,数据根据访问频率和访问响应速度被划分为不同层级。

  • 热数据(Hot Data):这些数据高频被访问,通常会存储在性能最优的介质上(如SSD、高性能硬盘或内存)。

  • 温数据(Warm Data):这些数据不常被访问,但偶尔需要使用,通常存储在性能适中的硬盘或云存储中。

  • 冷数据(Cold Data):这些数据很少访问,甚至可能几年才会用一次,通常存储在低成本的存储介质(如磁带、光盘)中。

总结:​数据访问频率和访问响应速度是  数据存储  架构设计和方案选择的决策依据。

会计软件数据采集 4.1系统概述 1、能采集、转换目前常用的用友、金蝶、安易、新中大、金算盘、浪潮、远光、远方、华兴、灵狐、速达、万能、通用、友强、金蜘蛛、降龙、益和、易统、润嘉、奥林岛、煤碳财务、金思维、复旦天翼、天大天财、小蜜蜂、北京通用、北嘉、兴竹、电信新逸、博科、管家婆、三门、科发通用、中财信事行财务、金财以及Sap/Oracle等80余种财务软件各个版本的数据,并能快速定制特殊财务软件数据采集接口。从6.2版本开始开放了数据采集转换接口,用户可以自己定义转换对应关系,直接读取各种(包括未支持财务软件及手工账数据)财务软件导出的科目汇总数据及凭证分录数据(格式为EXCEL,大多数财务软件有此功能),从而使本审计软件彻底解决数据接口问题。 2、采用只读不写的采集技术,保证了被审单位财务数据的安全性、准确性和完整性。 3、采集、转换工具都使用向导式技术,采集、转换流程清晰、直观、易操作。 4、转换、重新记帐步骤合并到一起,用户将被审单位的数据进行转换完毕后,就可以切换到通用财务审计系统进行审计分析。 登录审计管理平台后如下图4.1-1所示,点击登录平台中间的“快捷切换”右边的下拉式箭头,在弹出的下拉式菜单中选择【02-数据采集转换系统】,数据采集转换系统操作界面功能如下图4.1-1左边树型结构所示: 图4.1-1 数据采集转换系统
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值