第一章 大数据理论

  • 1.1大数据理论
    • 1.1.1 大数据的定义
      • 大数据不仅指数据的体量大,而且强调数据类型繁多,价值密度低,处理速度快。
      • 大数据不仅包括互联网信息,而且包括各种交通工具,生产设备和工业器材上的传感器信息。
      • 归根结底,通过大数据技术,可以快速处理不同种类的数据,从而获得有价值的信息。
    • 1.1.2 大数据的本质
      • 1.信息
        • 从本体论角度来看,信息可定义为事物的存在方式和运动状态的表现形式。
      • 2.数据
        • 数据是只能够客观反映事实的数字和资料。可定义为有意义的实体,它涉及事物的存在形式是表达知识的字符集合。
      • 3.数据和信息
        • 数据是信息的载体,信息是有背景的数据,而知识是经过人类的归纳和整理,最终呈现出规律的信息。
        • 简单地说,信息是经过加工的数据,或者说,信息是数据处理的结果。
    • 1.1.3 大数据的分类
      • 1.依据来源
        • 大数据一般分为4类
          • 科研数据
            • 科研数据在大数据时代前就存在,可能来自生物工程,天文望远镜或粒子对撞机,不一而足。
              • 科研数据存在于具有极高积分速度且性能优越的机器中,如欧洲核子研究中心的大型强子对撞机,其在满负荷的工作状态下,每秒可以产生PB级的数据。
          • 互联网数据
            • 互联网数据是时代的主流,社交媒体,成为近年来大数据的主要来源。
          • 感知数据
            • 进入移动互联网时代后,移动平台的感知功能和LBS(Location Based Service,基于位置的服务)的普及,使感知数据,互联网数据逐渐重叠,感知数据的体量同样惊人,并且总量可能不低于网数据。
          • 企业数据
            • 企业数据和感知数据都涉及传统产业。企业数据是由人产生的,而感知数据是由传感器等机器产生的。传统产业自身的大数据处理能力有限。
      • 2.依据使用主体
        • 大数据可分为三类
          • 政府大数据
            • 各级政府,各个机构拥有海量的原始数据,构成社会发展运行的基础,包括形形色色的环保戏相,电力的生活数据。道路交通、自来水、住房等公共数据,安全、海关、旅游等管理数据,教育、医疗、金融等服务数据。
            • 在具体的政府单一部门中,无数数据被固化而没有产生任何价值,如果关联这些数据并使其流动起来进行综合分析,有效管理将产生巨大的社会价值和经济效益。
          • 企业大数据
            • 大数据时代产生了很多影响巨大的互联网企业,而传统it企业随着网络社会的到来,也开始进入互联网领域。用云计算与大数据技术改善产品、提升平台、实现升级,这两类公司互相借鉴,相互合作,彼此竞争。
          • 个人大数据
            • 采集个人数据,应该明确按照国家法律要求数据,只有游用户明确授权后才能被采集,处理。
    • 1.1.4 大数据的特征
      • 1.体量巨大,种类繁多,
      • 2.开放,容易获取。
      • 3.重视社会预测
      • 4.重视发现而非实证
      • 5.非结构化数据越来越多
    • 1.1.5 大数据的功能
      • 1.连接功能
      • 2.反馈功能
      • 3.揭示功能
    • 1.1.6 大数据处理的基本流程
      • 大数据处理的基本流程为:
        • 在合适工具的辅助下,对异构数据进行采集,将结果按照一定的标准统一存储,利用合适的数据挖掘技术对存储的数据进行分析。从中提取有价值的信息,并利用恰当的方式将结果展示给终端用户。
  • 1.2 大数据的发展
    • 1.2.1 大数据的发展现状
      • 21世纪,移动通信网络从第2代逐渐发展到的第3代、第4代及第5代(5G)。这是由于计算机,互联网,移动通信网络的迅速发展,网络中的数据量越来越庞大。
    • 1.2.2 大数据的发展趋势
      • 1.数据的资源化
      • 2.与云计算的深度结合
      • 3.科学理论的突破
      • 4.数据共享平台的成立
      • 5.推动各行业发展
      • 6.隐私问题初现
  • 1.3 大数据的应用
    • 1.3.1 企业内部大数据
      • 商业智能( Business Intelligence,BI )和联机分析处理( On-Line Analytical Processing, OLAP )是大数据应用的前身。
      • 目前企业内部大数据的应用可以在多个方面提升企业的生产效率和竞争力。
      • 例如,在市场方面可以更准确地了解消费者的使用行为,挖掘新的商业模式。
      • 在供应链方面可以优化库存,优化物流,实现供应商协同,缓和供需之间的矛盾,控制预算开支,从而提升服务质量。
    • 1.3.2 在线社交网络大数据
      • 目前,在线社交网络大数据的应用包括网络舆情分析,网络情报收集与分析,社会化营销,政府决策支持。在线教育的。
      • 从体而言,在线社交网络大数据的应用可以从以下三个方面帮助我们了解人的行为,掌握社会和经济活动的变化规律。
        • 前期警告:通过监测用户使用电子设备及服务时出现的异常,再出现危机时更快速地应对。
        • 实时监控:通过对用户当前行为,情感和意愿等方面的监控,为政策和方案的制定提供准确的信息。
        • 实时反馈:在实时监控的基础上,针对某些社会活动获得群体的反馈信息。
    • 1.3.3 健康医疗大数据
      • 积极营造附近健康医疗大数据安全规范、创新应用的发展环境。
    • 1.3.4 金融大数据
      • 目前在全球范围内,互联网金融已经出现了以下三个重要的发展趋势。
        • 移动支付代替传统支付业务
        • 个人向个人(创业者)提供便捷借贷通道的 P2P 平台替代传统存贷款业务。
        • 众筹融资替代传统证券业务。
      • 金融大数据可以理解为反应人们金融交易行为互动的数据。金融大数据具有极大量、多维度和完备性等特征。
  • 1.4 常用的数据挖掘工具
    • 1.4.1 Tableau
      • 将数据运算与美观的图表完美结合,容易上手。
    • 1.4.2 Excel
      • 方便的处理数据的办公软件。
    • 1.4.3 SPSS Modeler
      • 内置了丰富的数据挖掘算法,支持与数据库之间的数据和模型转换。
      • 同时,其具有可视化的操作界面,具有简单易用,分析结果直观易懂,图形功能强大等特点。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值