零基础学习大数据经验分享

大数据人才极度匮乏,无论是互联网巨头企业、还是中小型企业、创业公司都非常缺乏大数据专业人才。在数据驱动的未来,大数据人才市场势必会越来越大,而现在仅仅是大数据起步的进阶阶段,可以想象未来的人才缺口有多大。所以现在入行正是恰逢其时。市场需求的不断扩大也必将使得学习大数据的价值得到凸显。

大数据如今能够火爆的一个重要原因,就是大家看到了大数据的能力,无论是在挖掘、统计、预测评估及决策等方面都发挥着举足轻重的作用。在如今的互联网大时代,我们每天都在日常生活、工作、游玩、各种服务型消费等都在产生着巨大的数据,根据IBM调研的说法,人类每天生成250亿字节的数据。这相当于一堆DVD数据从地球到月球的距离,涵盖我们发送的文本、上传的照片、各类传感器数据、设备与设备之间的通信的所有信息等。如何从海量的信息中找到我们想要的信息,就成为大数据行业产生的一个必要因素。

看到大佬分享的经验,我就搬运过来了,希望对大家有所帮助,推荐一个大数据学习群 142973723每天晚上20:10都有一节【免费的】大数据直播课程,专注大数据分析方法,大数据编程,大数据仓库,大数据案例,人工智能,数据挖掘都是纯干货分享,

一、学会爱数据
没有人谈论在学习动机。 数据科学是一个广泛而模糊的领域,这使得它很难学习。 没有动力,你最终会中途停止对自己失去信心。
你需要些东西来激励你不断学习,即使是在半夜公式已经开始变的模糊,你还是想探究关于神经网络的意义。你需要些动力来让你发现统计、线性代数和神经网络之间的联系,当你在困惑“下一步我该学习什么?”的时候。
我学习的入口是用数据来预测股市,尽管当时我完全不熟悉。我编码的第一批项目用于预测股票几乎没有统计,但是我知道它们表现的并不好,所以我日以继夜的工作让它们变的更好。
我痴迷于改善程序的性能,我痴迷于股票市场,我学习去爱数据。我去学习一切能让这个项目结果更好的技能。
并不是每个人都会痴迷于股市预测,但重要的是要发现你想学习的东西

二、在实践中学习


学习神经网络、图像识别和其他尖端技术是很重要的,但大多数数据科学工作不涉及这些:


90%的工作将是数据清理。


精通几个算法比知道一点许多算法要好。


如果你知道线性回归、k - means聚类和逻辑回归,可以解释和诠释他们的研究结果,并可以用这些完成一个项目,你将比如果你知道每一个演算法,但不使用它们更优秀。


大多数时候,当你使用一种算法,它将是库中的一个版本(你很少会自己编码支持向量机实现——这需要太长时间)。


所有这些意味着最好的学习方法是在项目工作中学习,通过项目,你可以获得有用的技能。


一种方法是在一个项目中先找到一个你喜欢的数据集,回答一个有趣的问题。


另一种方法是找到一个深层次的问题,例如预测股票市场,然后分解成小步骤。 我第一次连接到雅虎财经的API,并爬下每日价格数据。然后我创建了一些指标,比如在过去的几天里的平均价格,并用它们来预测未来(这里没有真正的算法,只是技术分析)。这个效果不太好,所以我学会了一些统计知识,然后用线性回归。 然后连接到另一个API,清理每一分钟的数据,并存储在一个SQL数据库。 等等,直到算法效果很好。


这样做的好处是我在一个学习环境中学习。我不仅仅学习了SQL语法,用它来储存价格数据,还比仅仅学习语法多学习了十倍的东西。学习而不应用的知识很难被保留,当你做实际的工作的时候也不会准备好

展开阅读全文

没有更多推荐了,返回首页