如何做数据分析——谈谈最近学习数据分析的粗浅认识

随着计算机和网络技术的发展,特别是高性能计算机和5G技术的发展,加之人工智能技术突飞猛进,大数据已成为数据科学研究的热门,人类已经进入了一个数据迸发的时代,世界上的每分每秒都在产生大量的数据,而采集和存储各行各业的各类数据是大数据技术发展的最主要目的。然而对数据的分析利用有助于人类认识和改造世界,可以说大数据时代将是下一次工业革命最大的阵地,一切都将基于数据,从万千数据中找出有利于科学技术发展和人类社会发展的脉络;可以想象在不久的将来,数据科学作为一门独立的学科,将吸引成千上万的数据开发者参与其中,从数据的海洋里汲取知识,在数据分析利用中锻炼能力,创造价值,实现数据高效利用是数据科学的终极目标。徜徉在数据的海洋是一件令人兴奋的事,而在海量的数据中获取有用的知识将是一件非常有意义的事,然而它是充满挑战的。最近在学习数据分析入门基础,将自己所学的东西作个简单记录,把学习的脉络理清楚,方便日后查阅。
首先,数据采集与获取(data acquisition)
数据的获取由专用的设备或网络生成,包括互联网产生的数据,有电商销售数据,银行金融数据,工业数据,医疗数据等等领域,当然包括一些专业做数据开发的平台发布的一些数据
数据的获取中需要注意的是数据读取应用协议和文件格式等,这决定与数据操作者对工具的掌握情况,常用的比较专业的是数据库软件,SQL、Oracle、MySQL以及Access等,还有一些编程语言,也是数据分析利用的有力工具,像Python,R和Matlab等以其通俗易懂、易上手和丰富的数据分析库著称,一般数据分析人员至少得掌握这三门语言,当然如果具备C和Java语言编程的能力也将是非常有用的。
其次,数据清洗与补充(data clean and supplement)
数据的质量决定了数据研究的质量,所谓garbage in, garbage out,没有好的数据源就不可能有好的研究结果;一个好的研究从一开始就要指定规范严密的数据采集方案,严格的数据质控方案,科学论证数据可行性,而后组织实施,在实施过程中随时监控,避免无效数据的产生。这个过程包括数据去伪、数据插补以及数据复核,确保待分析数据没有硬伤。
再次,数据描述性分析(data description analysis)
描述性分析,简言之就是利用传统数理统计的方法,对数据作简单的描述,同时用一些可视化的信息呈现出来,让人对数据有个直观的认识,并从中发现一些偏离值(异常值),这里需要一些统计学的知识,像概率论和数理统计、高等数学和矩阵分析的内容,当然这都不是决定性的,但却是必要的,有助于理解数据分析原理。很多时候,找出差异比找出联系更重要,这主要表现在医学领域的数据,譬如治疗的有效和无效之间的差异,这类问题用假设检验就可解决;如果要找关系,顾名思义最直接的是相关性分析;在相关的基础上更进一步就是回归分析,这里指的是直线回归
有时候在给定数据类别时,需要找数据之间的关联性,或者用现有的数据去分析预测新的数据,这类问题就涉及到一个很重要的参数:数据特征。而一组庞大数据的分析往往是提取其中较为有用的信息,来代表这组数据,这时特征参数扮演这个角色,这就又涉及到了特征提取的问题,特征提取实际上就是数据挖掘的开始,从而数据挖掘成为数据分析不可逾越的一步,也就是在你数据准确的情况下,海量数据中存在的信息都需要用一定的方法去挖掘,而探索数据挖掘的方法就是算法开发,算法开发其实简单到算平均值或中值,也可以复杂到情形非常多,这就是日常算法积累的重要性。
…未完待续

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值