做数据分析时注意事项

数据分析不仅需要大量数据,还需关注算法的公正性与透明度。数据科学家的角色应当聚焦于特征工程和分析,而非数据整理。算法可能引入偏见,简单的统计模型在大数据下也可能胜过复杂模型。数据科学虽看似神秘,实则基于统计推断,提高效率的关键在于减少低价值任务。
摘要由CSDN通过智能技术生成

  数据规模越大,分析结果的精确度就越高,千万亿、甚至百亿亿字节量级的数据所能分析出的结果相对精准。但如果数据不够大,很多数据挖掘和预测工作就没有办法进行。那么做数据分析时需要注意哪些问题?

做数据分析时注意事项

 

  1、分析消除了人类的偏见

 

  自动化系统执行的方式不应该存在偏见,但技术是由人类建立的,因此消除所有偏见几乎是不可能的。

 

  有些人认为分析和机器学习消除了人类的偏见,不幸的是,这并没有实现。算法和分析使用“训练数据”进行调整,并将重现“训练数据”所具有的任何特征,在某些情况下,这会在分析过程中引入良性偏见,但也有可能带来更严重的偏见——因为“算法这么说”并不意味着答案是公平的或者有用的。

 

  2、好的算法意味着绝对的胜利

 

  事实证明,有了足够的数据,有时算法无关紧要。谷歌的工程师认为,数据有着不合理有效性,简单的统计模型,加上极大量的数据,比包含大量特征和总结的“智能优越模型”能输出更优质的结果。

 

  因此,在某些情况下,只需处理更大量的数据就可以获得佳效果。

 

  3、算法是安全的

 

  人们固执地信任统计模型和算法,并且随着分析程序的组织构建,他们会越来越依赖复杂的模型来支持决策。这或许是因为用户并不觉得他们有能力挑战模型,因此他们必须相信构建它们的“聪明人”。

 

  比如,在过去的50到60年里,我们反复听到“人工智能将在20年内接管人类工作”的言论,现在也还是有人反复强调这种观点。在我们可以完全信任机器学习和它们输出的结果之前,还有很多事情要做。在那之前,我们需要挑战构建算法和模型的人,让他们解释如何得到答案。这并不是说我们不能依赖于结果,而是说我们需要透明度,这样我们才可以信任和验证分析结果。

 

  4、数据科学是一种神秘的“黑色艺术”

 

  近年来,数据科学学科受到了很多关注,有时甚至会与其他学科产生混淆。基本上来说,数据科学涉及了数据查找模式中所有算法的使用。

 

  数据科学似乎很神秘,因为这些算法能够分析比人类能够理解的范围内更多变量和更大的数据集。但是随着近年来计算能力和内存的扩大,我们现在能够快速解决10年前任何技术都无法解决的问题,人们也随之明白,数据科学是统计推断技术的自然演变。但一旦你理解了数学,数据科学就没有了神秘感。

 

  5、需要越多的数据科学家,才能做更多的数据科学工作

 

  如今,数据科学家是所有技术专业人员中紧缺的。但如果他们重新定位他们正在进行的工作,组织机构可能会减少这些专业人员的数量。

 

  许多数据科学家的时间花费在非增值活动上,比如查找数据集,将数据发送到可以处理的地方,以及转换和清理数据等。考虑到聘请数据科学家的困难程度,这些低价值的任务并不是企业想要的。

 

  数据科学家需要专注于特征工程,提取和分析,而不是围着数据打转,这样才能大大提高他们的工作效率和产出。

 

  数据分析是目前企业工作中的一个非常重要的组成部分,企业将根据自己的销售数据、财务数据、管理数据等各类数据来分析自己企业的实际情况,然后结合有效的分析结果,做出更好的发展决策。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值