大数据学习路线（我自己的零基础到现在的总结）

最新推荐文章于 2024-06-15 17:30:00 发布

juan777

最新推荐文章于 2024-06-15 17:30:00 发布

阅读量640

点赞数

分类专栏：大数据开发 Hadoop 大数据分析文章标签：大数据开发编程语言程序员大数据分析 Hadoop

本文链接：https://blog.csdn.net/juan777/article/details/104155006

版权

本文分享了一位程序员从零基础到掌握大数据的个人学习经验，强调了学习大数据应避免的误区，包括技能驱动而非事务驱动、重复造轮子而不善用开源、贪大求全而不以点带面以及理论过多而忽视实践。提出了以问题为导向，利用开源工具，以点带面的学习策略，并倡导通过实践来提升大数据工程能力，将数据科学转化为实际应用。

摘要由CSDN通过智能技术生成

大数据要怎样学：数据科学特点与大数据学习误区

（1）大数据学习要事务驱动，不要技能驱动：数据科学的中心才能是处理问题。大数据的中心方针是数据驱动的智能化，要处理详细的问题，不管是科学研讨问题，仍是商业决议计划问题，抑或是政府办理问题。所以学习之前要清晰问题，了解问题，所谓问题导向、方针导向，这个清晰之后再研讨和挑选合适的技能加以使用，这样才有针对性，言必hadoop,spark的大数据剖析是不谨慎的。不同的事务范畴需求不同方向理论、技能和东西的支撑。如文本、网页要自然言语建模，随时刻改动数据流需求序列建模，图画音频和视频多是时空混合建模；大数据处理如搜集需求爬虫、倒入导出和预处理等支撑，存储需求分布式云存储、云核算资源办理等支撑，核算需求分类、猜测、描绘等模型支撑，使用需求可视化、常识库、决议计划点评等支撑。所以是事务决议技能，而不是依据技能来考虑事务，这是大数据学习要防止的第一个误区。

（2）大数据学习要善用开源，不要重复造轮子：数据科学的技能基因在于开源。IT前沿范畴的开源化已成不可逆转的趋势，Android开源让智能手机平民化，让咱们跨入了移动互联网年代，智能硬件开源将带领跨入物联网年代，以Hadoop和Spark为代表的大数据开源生态加快了去IOE（IBM、ORACLE、EMC）进程，倒逼传统IT巨子拥抱开源，谷歌和OpenAI联盟的深度学习开源（以Tensorflow,Torch,Caffe等为代表）正在加快人工智能技能的开展。数据科学的标配言语R和Python更是因开源而生，因开源而昌盛，诺基亚因没掌握开源大势而式微。为什么要开源，这得益于IT开展的工业化和构件化，各大范畴的根底技能栈和东西库现已很老练，下一阶段就是怎样快速组合、快速搭积木、快速产出的问题，不管是linux,anroid仍是tensorflow，其根底构件库根本就是使用已有开源库，结合新的技能办法完结，组合构建而成，很少在重复造轮子。别的，开源这种众包开发形式，是一种团体才智编程的表现，一个公司无法积累全球工程师的开发智力，而一个GitHub上的明星开源项目能够，所以要善用开源和团体才智编程，而不要重复造轮子，这是大数据学习要防止的第二个误区。

（3）大数据学习要以点带面，不贪大求全：数

最低0.47元/天解锁文章

juan777

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
大数据学习路线（我自己的零基础到现在的总结）

大数据要怎样学：数据科学特点与大数据学习误区（1）大数据学习要事务驱动，不要技能驱动：数据科学的中心才能是处理问题。大数据的中心方针是数据驱动的智能化，要处理详细的问题，不管是科学研讨问题，仍是商业决议计划问题，抑或是政府办理问题。所以学习之前要清晰问题，了解问题，所谓问题导向、方针导向，这个清晰之后再研讨和挑选合适的技能加以使用，这样才有针对性，言必hadoop,spark的大数据剖析是...
复制链接

扫一扫

专栏目录