99.Spark大型电商项目-各区域热门商品统计-模块介绍

目录

各区域热门商品统计

作业提交

大数据方向的职业发展规划

用户行为分析意义


本篇文章记录各区域热门商品统计-模块介绍。

各区域热门商品统计

需求:根据用户指定的日期范围,统计各个区域下的最热门的top3商品

  1. 区域信息在哪里,各个城市的信息,城市是不怎么变化的,没有必要存储在hive里?MySQL,Hive和MySQL异构数据源使用,技术点
  2. hive用户行为数据,和mysql城市信息,join,关联之后是RDD?RDD转换Dataset,注册临时表,技术点
  3. 各个区域下各个商品的点击量,保留每个区域的城市列表数据?自定义UDAF函数,group_concat_distinct()
  4. product_id,join hive表中的商品信息,商品信息在哪里?Hive。商品的经营类型是什么?自定义UDF函数,get_json_object(),if()
  5. 获取每个区域的点击量top3商品?开窗函数;给每个区域打上级别的标识,西北大区,经济落后,区域上的划分,C类区域;北京、上海,发达,标记A类
  6. Spark SQL的数据倾斜解决方案?双重group by、随机key以及扩容表(自定义UDF函数,random_key())、内置reduce join转换为map join、shuffle并行度

作业提交

 

大数据方向的职业发展规划

大数据ETL开发工程师:Hadoop基础知识,Hive精通,SQL和ETL(数据的抽取、转换和导入),原始的大日志->数据仓库(多个表);java基础、python、shell脚本基础(大数据金字塔的最底端,职业瓶颈非常有限)

钻研Hadoop、学习Spark课程、自学Storm、精通java编程

转型

大数据开发工程师:Hadoop(HDFS、YARN,MapReduce过时),Spark,(Storm),J2SE(Java基础编程),Python、Shell,Hive(SQL),HBase,MySQL;负责写纯的MapReduce、Spark、Storm、Hive,程序,Eclipse建立工程,写完打成jar包,配置到公司的调度平台定期运行;要不就是部署到线上机器,等着J2EE平台来调用。

职业发展前景、薪资,肯定是比第一种要高一些的(至少高30%)

平行

J2EE开发工程师:纯J2EE

学习Hadoop视频、学习Spark视频、学习Storm视频,还没有达到精通

转型

数据平台J2EE开发工程师:2年、3年、5年的Java开发经验,慢慢往大数据方向来转,懂一点儿大数据的基础知识,Hadoop、Spark、Storm、HBase至少知道是怎么回事,能写一点简单的程序;J2EE精通;(前端)、J2EE,Web系统(界面),提交计算任务(指定参数)、通过界面查看漂亮的报表和表格。

大数据开发工程师+数据平台J2EE开发工程师

大数据平台高级开发工程师:精通Hadoop、Spark、Storm(源码级别的),Kafka、Flume、ZooKeeper;J2EE技术,精通,开源框架(Spring MVC、Spring、MyBatis),MySQL性能调优,Java虚拟机(JVM)调优,前端技术(JS熟练、JS框架,jQuery 、Bootstrap);
高并发系统架构(NoSQL、Redis、Memcached、Nginx、负载均衡、分布式)

大数据平台高级架构师

针对各种类型的大数据业务系统,都可以进行独立的规划、把控、技术选型、从底层大数据到上层J2EE的架构搭建、核心模块的编写、开发出来的大数据系统,面向百万级、千万级的用户,还可以实现高并发的系统架构

linux运维工程师

转型

大数据运维工程师:精通linux,hadoop、spark、storm、hbase(源码级别)集群的搭建与运维,集群的升级、二次开发(修改源码)、故障解决和排查,会一些编程语言,和脚本语言

R、SAS传统的分析师

转型

数据分析师:R、Spark R、分析算法、分析模型的建模

高端

大数据数据挖掘与机器学习工程师:编程语言、脚本语言、精通Hadoop、Spark、Storm,精通各种机器学习与数据挖掘的算法

大数据,真正要发挥出来他的价值,比如,直接去推动线上的业务,给公司赚取更多的利润,其实就是就要靠这种工程师,和高端的技术

大数据金字塔的顶端

知名大学(北大、清华、中科大)的至少硕士,就是这个研究方向的;博士;直接可以做这个金字塔顶端的大数据的工作

从上面说的那个系列,一步一步往上走,走到大数据平台高级架构师级别;然后再钻研数据挖掘、机器学习相关的算法和技术(Spark MLlib,机器学习,GraphX,图计算,Hadoop Mahout);走到大数据金字塔的最顶端。

用技术去改变世界,用技术去改变人们的生活,用技术去直接为企业创造价值和利润

用户行为分析意义

用户行为分析,很重要,大数据平台高级架构师;从Hadoop、Spark、实时计算、J2EE、前端,前面把控和规划,带领团队来实现和开发

(大数据最底端,简单的SQL、报表、ETL、取一些数据)

平台,意义在哪里?辅助公司内部的产品经理,更好的规划和设计产品;高管,能够对用户行为心理有数;分析师,提高他们的工作效率(自己要去做);给公司内部的人员带来了一些方便、效率上的提升、数据的支持;他们再做对应的一些事情,产品规划、战略调整、分析策略,对公司的利润有间接的支持和提升

大数据数据挖掘与机器学习工程师

算法,预测明年可能热卖的商品有哪些,公司重点去铺开和发展这些商品;预测公司选择哪些形象代言人可以给公司带来最好的形象,以及用户的增长率;

公司,可以直接根据这些人计算出来的一些数据、方案等,去调整公司的战略,是直接对公司的利润的提升、市场占有率的增加是有帮助的

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值