数据分析笔记(1)

数据:是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质状态以及相互关系等进行记载的物理符号或这些物理符号的组合

进入到 21 世纪以后,伴随着互联网的迅速发展,大数据应运而生,越来越多的数据被不断的挖掘出来,形成了“数据为王”的时代。

每个人每天其实都在产生大量数据,也在消费大量数据,比如打开计算机、浏览新闻、写邮件等。每个人每天都会产生大量的数据,但很多都是无用的。

随着数据规模越来越庞大,单靠人力重复的脑力劳动已经无法跟上行业的发展态势,人类的智慧应该更多应用于决断与选择层次,而让数据分析成为人类的一种辅助工具,可以帮助决策者更明确做出预期判断与预测。而数据分析可以指导人们进行购物、进行决策等等。

数据分析是指用适当的统计分析对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。

数据分析的全貌:

数据分析可以分为三部分,观测、实验以及应用。

观测,也就是采集数据、对数据的挖掘。对于数据挖掘,要分析与事物相关的所有数据,而不是依靠分析少量的数据样本,而且不再探求难以捉摸的因果关系,转而关注事物的相关关系。采集数据方法有很多,比如爬虫、传感器检测、用API获取数据。观测数据后就要存储数据,存储数据常用的工具就是数据库,比如MySQL、PostgreSQL、SQL Server等等。而数据库是需要专门的数据工程师,也就是维护和研究数据库的程序员们进行开发和管理。而我们存储数据的方法,则是通过连接数据库来进行存取数据。

在观测到数据后,我们就要进行实验,也就是提出并且验证假设。对其进行不断地分析,主要通过列表或者作图这两个方法来进行。

1、列表法

将数据按一定规律用列表方式表达出来,是记录和处理最常用的方法。表格的设计要求对应关系清楚,简单明了,有利于发现相关量之间的相关关系;此外还要求在标题栏中注明各个量的名称、符号、数量级和单位等:根据需要还可以列出除原始数据以外的计算栏目和统计栏目等。

2、作图法

作图法可以最醒目地表达各个物理量间的变化关系。从图线上可以简便求出实验需要的某些结果,还可以把某些复杂的函数关系,通过一定的变换用图形表示出来。 

图表和图形的生成方式主要有两种:手动制表和用程序自动生成,其中用程序制表是通过相应的软件,例如SPSS、Excel、MATLAB等。将调查的数据输入程序中,通过对这些软件进行操作,得出最后结果,结果可以用图表或者图形的方式表现出来。图形和图表可以直接反映出调研结果,这样大大节省了设计师的时间,帮助设计者们更好地分析和预测市场所需要的产品,为进一步的设计做铺垫。同时这些分析形式也运用在产品销售统计中,这样可以直观地给出最近的产品销售情况,并可以及时地分析和预测未来的市场销售情况等。所以数据分析法在工业设计中运用非常广泛,而且是极为重要的。

最后就是把实际得出的结论应用到实际生活中,也就是应用,比如:基于数据反馈不断迭代产品和业务策略、基于数据训练算法,让机器自动化地完成工作。

数据分析常用方法

当我们进行数据分析的时候,要根据不同的场景,选择合适的分析方法,这是一点是比较难的,我们可以把简单理解为找到一种最适合分析的策略,亦或是“模型”,我们简单列举几种方法:

对比分析法,分析差异,揭示数据代表的事物的发展变化和规律性。
相关分析法,用来研究变量之间存在但又不确定的相互关系以及密切程度的分析,确定有无关系,确定现象之间关系的密切程度。
综合评价分析法,将多个指标转化为一个能够反映综合情况的指标进行评价,用于解决复杂的分析对象。
还有诸多种分析方法,比如回归分析、聚类分析等等。

数据分析工具

Hadoop
Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。可以通过hibench来对hadoop进行基准测试。

HPCC
HPCC,High Performance Computing and Communications(高性能计算与通信)的缩写。1993年,由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目:高性能计算与 通信”的报告,也就是被称为HPCC计划的报告,即美国总统科学战略项目,其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC是美国实施信息高速公路而上实施的计划,该计划的实施将耗资百亿美元,其主要目标要达到:开发可扩展的计算系统及相关软件,以支持太位级网络传输性能,开发千兆比特网络技术,扩展研究和教育机构及网络连接能力。

Smartbi
Smartbi是国内领先的BI厂商,产品定位于一站式大数据服务平台,对接各种业务数据库、数据仓库和大数据平台,进行加工处理、分析挖掘与可视化展现;满足各种数据分析应用需求,如大数据分析、自助探索分析、地图可视化、移动管理驾驶舱、指挥大屏幕、企业报表平台、数据挖掘等。Smartbi产品功能设计全面,企业单位只需要安装部署一次,就可以实现中国式复杂报表、自助BI、以及数据挖掘产品的使用,产品性能、易用性和安全性都不错,广泛应用于金融、政府、电信、企事业单位等领域。

Storm
Storm是自由的开源软件,一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流,用于处理Hadoop的批量数据。Storm很简单,支持许多种编程语言,使用起来非常有趣。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值