- 数据工程师
职位描述:处理大量数据的公司,并管理数据通道。这意味着,当需要时,你要能确保有效地从数据源收集和检索数据,并进行清理和预处理。
为什么它很重要:如果你只处理过相对小的(<5Gb)保存为.csv或.txt文件的数据集,那么你可能很难理解为什么会有一些人的全职工作是构建和维护数据管道。
这里有几个原因:
一个50Gb的数据集对计算机的RAM来说太大了,所以你通常需要其他方法将其输入到你的模型中。
处理这么大规模的数据需要花费大量时间,并且经常需要冗余存储。管理数据的存储也需要专门的技术诀窍。
要求:你将使用的技术包括Apache Spark、Hadoop和/或Hive,以及Kafka。你很可能还需要有一个扎实的SQL基础。
你要处理的问题听起来像:
“我如何构建一个能够每分钟处理10000个请求的数据管道?”
“如何清理数据集而不用将其全部加载到RAM中?”
- 数据分析员
职位描述:将数据转换成可指导业务发展的商业洞察力。你会是技术团队和商业战略、销售或营销团队的桥梁。数据可视化将成为你日常工作的重要组成部分。
为什么它很重要:纯技术人员通常很难理解为什么数据分析员如此重要,但事实是他们就是很重要。
这些人需要将经过训练和测试的模型和大量用户数据转换为让人易于理解的形式,以便根据数据分析结论设计业务策略。数据分析员帮助确保数据科学团队不会浪费时间在不能提供业务价值的问题上面。
要求:你将使用的技术包括Python、SQL、Tableau和Excel。你还需要成为一个好的沟通者。
你要处理的问题听起来像:
“什么驱动了用户的增长?”
“我们如何向管理层解释,最近用户费用的增加会减少客户?”
- 数据科学家
职位描述:清理和探索数据集,并做出有商业价值的预测。日常工作包括训练和优化模型,并将它们部署到生产中。
为什么它很重要:当你有一大堆数据,以至于人类无法解析,同时这些数据也很珍贵以至于不能忽略它们时,你需要通过一些办法从中提取一些可被接受的见解。这是数据科学家的基本工作:将数据转换成可被理解的结论。
要求:你将使用的技术包括Python、scikit-learn、Pandas、SQL,可能还有Flask、Spark和/或TensorFlow/PyTorch。一些数据科学职位纯粹是技术性的,但是大多数职位还需要你具有商业头脑,这样你就不会老想着去解决没有人需要解决的问题。
你要处理的问题听起来像:
“我们到底有多少种不同类型的用户?”
“我们能建立一个模型来预测哪些产品能卖给哪些用户吗?”
人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
1.大数据分析,主要有哪些核心技术?
http://www.duozhishidai.com/article-1938-1.html
2.构建一个企业的大数据分析平台 ,主要分为哪几步?
http://www.duozhishidai.com/article-8017-1.html
3.数据科学,数据分析和机器学习之间,有什么本质区别?
http://www.duozhishidai.com/article-7892-1.html
4.数据分析是什么,如何完善数据分析知识体系
http://www.duozhishidai.com/article-7743-1.html
5.数据分析是什么?如何从零开始学习数据分析?
http://www.duozhishidai.com/article-7653-1.html
大数据现在处于什么阶段,入行大数据,需要学习哪些基础知识?
http://www.duozhishidai.com/article-1169-1.html