大数据学习路线(我自己的零基础到现在的总结)

本文分享了一位程序员从零基础到掌握大数据的个人学习经验,强调了学习大数据应避免的误区,包括技能驱动而非事务驱动、重复造轮子而不善用开源、贪大求全而不以点带面以及理论过多而忽视实践。提出了以问题为导向,利用开源工具,以点带面的学习策略,并倡导通过实践来提升大数据工程能力,将数据科学转化为实际应用。
摘要由CSDN通过智能技术生成

大数据要怎样学:数据科学特点与大数据学习误区

(1)大数据学习要事务驱动,不要技能驱动:数据科学的中心才能是处理问题。 大数据的中心方针是数据驱动的智能化,要处理详细的问题,不管是科学研讨问题,仍是商业决议计划问题,抑或是政府办理问题。 所以学习之前要清晰问题,了解问题,所谓问题导向、方针导向,这个清晰之后再研讨和挑选合适的技能加以使用,这样才有针对性,言必hadoop,spark的大数据剖析是不谨慎的。 不同的事务范畴需求不同方向理论、技能和东西的支撑。如文本、网页要自然言语建模,随时刻改动数据流需求序列建模,图画音频和视频多是时空混合建模;大数据处理如搜集需求爬虫、倒入导出和预处理等支撑,存储需求分布式云存储、云核算资源办理等支撑,核算需求分类、猜测、描绘等模型支撑,使用需求可视化、常识库、决议计划点评等支撑。所以是事务决议技能,而不是依据技能来考虑事务,这是大数据学习要防止的第一个误区。

(2)大数据学习要善用开源,不要重复造轮子:数据科学的技能基因在于开源。IT前沿范畴的开源化已成不可逆转的趋势,Android开源让智能手机平民化,让咱们跨入了移动互联网年代,智能硬件开源将带领跨入物联网年代,以Hadoop和Spark为代表的大数据开源生态加快了去IOE(IBM、ORACLE、EMC)进程,倒逼传统IT巨子拥抱开源,谷歌和OpenAI联盟的深度学习开源(以Tensorflow,Torch,Caffe等为代表)正在加快人工智能技能的开展。 数据科学的标配言语R和Python更是因开源而生,因开源而昌盛,诺基亚因没掌握开源大势而式微。为什么要开源,这得益于IT开展的工业化和构件化,各大范畴的根底技能栈和东西库现已很老练,下一阶段就是怎样快速组合、快速搭积木、快速产出的问题,不管是linux,anroid仍是tensorflow,其根底构件库根本就是使用已有开源库,结合新的技能办法完结,组合构建而成,很少在重复造轮子。 别的,开源这种众包开发形式,是一种团体才智编程的表现,一个公司无法积累全球工程师的开发智力,而一个GitHub上的明星开源项目能够,所以要善用开源和团体才智编程,而不要重复造轮子,这是大数据学习要防止的第二个误区。

(3)大数据学习要以点带面,不贪大求全:数

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值