大数据需要掌握技能:
1.编程语言 Java
2.数据库 MySQL+sql+jdbc
3.javaweb tomcat+ssm框架
4.linux
5.hadoop (HDFS:大数据的存储 mapreduce:大数据的计算,数据清洗 yarn:资源调度)
6.大数据其他组件
hive:弥补mapreduce编程复杂的缺陷
hbase:弥补hive和hdfs存储数据的缺陷
zookeeper
sqoop
flume
kafka
azkaban
redis
企业项目团队组成
1、Boss
技术团队:
2、运营团队
工作职责:
负责帮用户使用这个产品的
3、产品团队
需求:
用户
boss
运营
4、开发团队
工作职责:
仅仅是把运营或者产品或者boss的一句话编成代码
程序员:
人体咖啡机
开发工种的分类:
前端
美工,UI,设计,JS,CSS等等 页面
后端
接口组,数据组,业务组,搜索引擎组,平台架构
终极boss:
CTO
getPageData(int pageIndex, int pageNumber)
ajax
soap webservices
全栈工程师
5、运维团队
工作职责:
复杂发布项目上线,管理和运维项目的正常运行
保证服务器7*24小时不中断
如:双十一 微博
有一位同事 --- 打开电脑进行服务器的运维
6、DBA团队
工作职责:
保证数据的安全
权限
备份
效率
7、测试团队
工作职责:
保证开发团队开发的业务需求实现能正常运行没有问题
"敌对团队": 保证产品正常运行
404
403
...
用户行为分析核心概念
1)访客:
未注册登录的用户
2)会员:
注册的用户
新会员
总会员
活跃会员
3)PV:浏览量
Page View
每点击一次一个网页,PV流浪量就+1
4)UV:
Unique View/Visitor
独立访问
在一个会话期间,多次PV算一个
5)会话(Session):
用从打开网站到关闭网站的整个过程。
每一个回话都有一个独一无二的ID号。
一般情况下,我们一个回话里面有很多访问记录的。
这些访问记录的sessionid 都是一样的。
注意Session和Cookie的区别
6)会话的平均访问时间:
这个值很重要,如果一个网站的平均访问时间越长,那么说明这个网站越好。
计算逻辑:
所有会话的时长总和 / 所有会话总数
另外一种分析方式:
1-3s占多少
3-7s占多少
......
30分钟以上的有多少比例
7)DV:
用户访问深度
说白了就是指一个回话里面访问了多少个页面。
DV的平均值越高,越好!!
分析方式:
1-3页面 占 总的回话的比例多少
3-7页面
....
100个页面以上
8)外链分析:
用户是通过哪个外部的网页跳转到我们的这个网站的。
这个外部的网页就是我们的外链。
也要去分析外链的质量
9)跳出率:
一个会话里面,只访问了一个页面。说明这个用户只点了一个页面就离开了
如果这样的用户多,说明我们的网站的首页不吸引人
算法:只访问了一个页面的回话的个数/总的回话的个数
跳出率是越小越好
10)退出率
从当前这个页面退出的会话数占总会话数的比例
11)订单总金额
整个平台的所有的订单的订单金额的总和
12)订单总数
整个平台的所有的订单的订单总数
13)客单价/平均交易额
每一个顾客平均购买商品的金额,也即是平均交易金额