此文主要叙述大数据行业从业者的技术学习规划
主要分为两部分,开发和分析
开发
开发常见项目:电商,物流和推荐系统
学习顺序:
离线电商项目覆盖需求分析、数仓体系构建、技术选型、集群规划、数据治理,经典问题思考定位与解析,生产级调优全流程, 还原完备的PB级企业级数仓系统构建。
智慧物流项目完成多源物流数据采集、聚合、离线分析/实时预警,并实现基于大数据+机器学习算法+数据挖掘的仓储销量预测、货物配送动态规划等。(暂无资料)
实时电商项目着重于实时的数据分析处理,数仓项目的需求分析、架构设计、环境搭建、数据准备、数仓开发、数据可视化、项目部署。
推荐系统项目基于数据开发之上的算法应用
数据分析项目:www.sqlintern.com/clint 使用数据库语言直接面对数据库查询并计算
本人规划:电商离线+电商实时+电商推荐(本人主要领域在GIS和LBS不过目前网上有教程的项目还不多)
分析
分析一方面和业务理解相关,另一方面和机器学习相关
业务理解主要是对人的理解,在这个技术博客上不详细展开
机器学习与统计学常见项目:聚类与分类/回归预测
常见聚类方法:Kmeans
常见分类方法:决策树/XGB等等
常见回归:线性回归,logistic回归
分析附加技能:数据可视化:Echarts等等
本人规划:Kaggle进入排行榜