数据分析之实战项目——电商用户行为分析

数据分析实战 专栏收录该内容
7 篇文章 3 订阅

阅读之前看这里👉:博主是正在学习数据分析的一员,博客记录的是在学习过程中一些总结,也希望和大家一起进步,在记录之时,未免存在很多疏漏和不全,如有问题,还请私聊博主指正。
博客地址:天阑之蓝的博客,学习过程中不免有困难和迷茫,希望大家都能在这学习的过程中肯定自己,超越自己,最终创造自己。

一、分析背景和目的

随着互联网和电商的发展,人们习惯于网上购物。在国内,电商平台深受欢迎,每年的双11,双12活动,大量的用户在淘宝平台浏览商品,或收藏或加入购物车或直接购买。通过对用户的行为分析,探索用户购买的规律,了解商品的受欢迎程度,结合店铺的营销策略,实现更加精细和精准的运营,让业务获得更好的增长。

本数据来源:阿里天池数据集
数据集介绍
本数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包含点击、购买、加购、喜欢),每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。原数据集总共1亿以上数据集,数据量太大,本次分析导入约383万条数据,并在导入的过程中5个字段联合设置主键,导入过程中已经剔除了重复值。

  • 用户ID:整数类型,序列化后的用户ID;
  • 商品ID:整数类型,序列化后的商品ID;
  • 商品类目ID:整数类型,序列化后的商品所属类目ID
  • 行为类型:字符串,包括(“pv”:相当于点击,“buy”:商品购买,“cart”:将商品加入购物车,“fav”:收藏商品)
  • 时间戳:行为发生的时间戳

工具:Mysql数据库,Navicat Premium 12,Excel

二、分析框架和思路

首先明确我们的分析的目的,是要对电商用户行为进行一个分析。那么应该主要从用户维度、产品维度、用户行为的维度,如下图所示:
在这里插入图片描述

2.1 用户维度

在用户维度我们想要知道什么问题呢?了解用户购买的行为习惯
需要哪些指标呢:
PV、UV、平均访问量、跳失率等指标,分析用户最活跃的日期及活跃时段

2.2 产品维度

从成交量、人均购买次数、复购率等指标,探索用户对商品的购买偏好,了解商品的销售规律

2.3用户行为维度

从收藏转化率、购物车转化率、成交转化率,对用户行为从浏览到购买进行漏斗分析

2.4用户价值维度(RFM)

参照RFM模型,对用户进行分类,找出有价值的用户

三、分析正文

分析步骤如下:
提出问题------理解数据------数据处理和清洗------构建模型------数据可视化

3.1 提出问题

  • 用户最活跃的日期及时段
  • 用户对商品有哪些购买偏好
  • 用户行为间的转化情况
  • 用户分类,哪些是有价值的用户

3.2 理解数据

  • 用户ID:整数类型,序列化后的用户ID;
  • 商品ID:整数类型,序列化后的商品ID;
  • 商品类目ID:整数类型,序列化后的商品所属类目ID
  • 行为类型:字符串,包括(“pv”:相当于点击,“buy”:商品购买,“cart”:将商品加入购物车,“fav”:收藏商品)
  • 时间戳:行为发生的时间戳
    在这里插入图片描述

3.3数据处理和数据清洗

3.3.1 列名重命名

导入至Navicat的过程中将字段名更改为英文,方便编写SQL语言

字段字段(中文名)
UserID用户ID
ItemID商品ID
Category商品类目ID
Behavior行为类型(pv,buy,cart,fav)
time时间戳

导入数据类型如下:
在这里插入图片描述
我们看到time的格式并不是标准的时间格式,所以需要对其进行处理。

3.3.2 时间格式的处理

  • 原数据时间戳time字段部分使用的是整数型,需要转换为日期时间形式。添加字段datetime(日期时间)、time_date(日期)、time_hour(时间):
alter table userbehavior add datetime datetime;
alter table userbehavior add time_date varchar(255);
alter table userbehavior add time_hour varchar(255);
  • 给添加的字段更新数据
update userbehavior set datetime=from_unixtime(time);
update userbehavior set time_date=mid(datetime,1,10);
update userbehavior set time_hour=right(datetime,8);

时间格式处理结果如下:
在这里插入图片描述

3.3.3 选择所需数据集

  • 选取时间为2017年11月25日至2017年12月3日的数据集
delete from userbehavior where time_date < '2017-11-25' or time_date >'2017-12-03';
  • 对处理完的数据进行检验
select max(time_date),min(time_date) from userbehavior;

在这里插入图片描述
我们可以看到数据范围正确

  • 检查是否有缺失值
select count(UserID),count(ItemID),count(Category),count(Behavior),
	   count(datetime),count(time),count(time_date),count(time_hour) 
	   from userbehavior;

在这里插入图片描述
可以看到一共有3833385条数据,并且无缺失字段和缺失值。

3.4 构建模型

3.4.1用户购物情况整体分析

  • UV、PV和平均访问量
select count(distinct UserID) "访客数",
		(select count(*) from userbehavior where Behavior = "pv") "点击数",
			ROUND((select count(*) from userbehavior where Behavior = "pv")/
				count(distinct UserID), 2) "人均访问数" from userbehavior;

在这里插入图片描述
我们可以看到这段时间内的访客数为37376,点击数为3431904,人均访问数为91.82次。可以看出:
在这9天中人均每天访问约9次,可见用户经常使用。

  • 用户跳出率
    用户跳出率的计算公式为:
    只 访 问 一 次 页 面 数 / 总 用 户 数 只访问一次页面数/总用户数 访/
    所以代码为:
select 总用户数,只访问一次页面数,concat((只访问一次页面数 * 100) / (总用户数), "%") "跳出率"
	  from  (select UserID,count(distinct UserID) "只访问一次页面数"  from userbehavior
		       where UserID not in 
				   (select distinct UserID from userbehavior where behavior ='fav')
					 and UserID not in
				   (select distinct UserID from userbehavior where behavior ='cart')
					 and UserID not in 
				   (select distinct UserID from userbehavior where behavior ='buy')) as a
					 inner join (select UserID, count(distinct UserID) "总用户数" from userbehavior) as b
					 on a.UserID = b.UserID

在这里插入图片描述
结果跳出率只有5.8754%,跳出率比较低,说明大部分用户都转到下一个页面了,用户愿意在此上花费时间和精力,去挑选自己的商品,收藏或者加入购物车以及购买。

3.4.2用户活跃周期

在这里插入图片描述
(1)每日用户的点击量,访客数,收藏次数,加入购物车次数,购买次数

select e.访客数,a.time_date,a.活跃点击量,b.收藏次数,c.加入购物车次数,d.购买次数 from
		(select time_date, count(behavior) "活跃点击量"
				from userbehavior
				where behavior = "pv" group by time_date order by time_date) as a  inner join
		(select time_date, count(behavior)  "收藏次数"
				from userbehavior
				where behavior = "fav" group by time_date order by time_date) as b inner join
		(select time_date, count(behavior) "加入购物车次数"
		from userbehavior
		where behavior = "cart" group by time_date order by time_date) as c inner join
		(select time_date, count(behavior) "购买次数"
		from userbehavior
		where behavior = "buy" group by time_date) as d  join
		(select time_date,count(distinct UserID) "访客数" from userbehavior
		group by time_date order by time_date) as e
		on a.time_date = b.time_date
		and b.time_date = c.time_date
		and c.time_date = d.time_date
		and d.time_date = e.time_date;

此处还可以用case语句
在这里插入图片描述
在这里插入图片描述
从图中可以看出所有的趋势随着日期变化基本一致。其中访客数在11月25日和12月2日有明显增加,同时点击量和其它指标也有所增加,分析知,这两天日期均为周六,说明在周六的用户使用频率和购物频率有所增加,可以针对周末多做一些运营或者商品推送和优化。
(2)各个时间段内用户的行为

select mid(time_hour,1,2) "时间",
		sum(case when Behavior = "pv" then 1 else 0 end) "活跃点击量",
		count(distinct UserID) "活跃用户数",
		sum(case when Behavior = "fav" then 1 else 0 end) "收藏次数",
		sum(case when Behavior = "cart" then 1 else 0 end) "加入购物车次数",
		sum(case when Behavior = "buy" then 1 else 0 end) "购买次数"
		from userbehavior group by mid(time_hour,1,2)

在这里插入图片描述
通过可视化图形观察其趋势和特征:
在这里插入图片描述
观察知,活跃点击量和访客数的趋势一致,在17-22时访客达到高峰,说明用户在下午和晚上经常访问APP,然后继续分析这些时间段内的购买情况:
在这里插入图片描述
可以观察到18-22时购买情况上升趋势明显,这个阶段人们倾向于做出购物决策,说明人们晚上做出购物决策的情况较多,这个时候人们有充足的时间进行商品挑选和加入购物车,也符合现代人们的生活作息。可以针对这个情况对晚上的商品进行更多的推送和其它运营策略。

3.4.3用户对商品有哪些购买偏好

(1)销量前十的商品和种类

  • 分析一下销量最好的商品
select ItemID "商品编号",category "商品种类",count(behavior) "销量"
		from userbehavior
		where behavior = "buy" group by ItemID order by 销量 desc limit 10

在这里插入图片描述
通过对商品销量的分析,总销量最好的是商品3122135,所属种类为1516409。

  • 再分析一下销量最好的种类:

在这里插入图片描述
销量最好的种类编号是1464116,销量为1432。
得到这些销量数据,我们可以针对性对销量好的商品和种类进行优化推广,权重提高等,当然还要分析销量好的种类是不是日常需求比较大的生活用品如米油等,还需要分析其销售额才能确定,部分商品虽然销量高但是销售额小,要综合判断。

(2)人均购买次数和复购率分析

  • 人均购买次数
select count(behavior) as 订单量,
	   count(distinct UserID) as 用户数,
	   count(behavior) / count(distinct UserID) as 人均购买次数
	   from userbehavior
	   where behavior = "buy"

在这里插入图片描述
可以看出人们的消费能力还是不错的,商品销售也不错,人均购买次数在3次左右。

  • 复购率
    复购率=购买2次及以上用户数/总购买用户数
select 用户数,购买两次及以上用户数,concat(购买两次及以上用户数 * 100 / 用户数, "%") as 复购率
		from(
			select count(distinct UserID) as 用户数,
				   (select count(*) as 购买两次及以上用户数 
						   from (select count(UserID) as 重复购买数
										from userbehavior 
										where behavior = "buy"
										group by UserID		
										having count(UserID) > 1) as b) as 购买两次及以上用户数
			from userbehavior
			where behavior = "buy") as c

在这里插入图片描述
可以看出复购率较高,说明大多数人在消费以后还愿意继续购买。
(3)经常消费的重点客户(次数和金额)

select UserID,count(UserID) as 购买次数
			from userbehavior
			where behavior = "buy"
			group by UserID
			order by count(UserID) desc
			limit 10

在这里插入图片描述
看出购买次数的前十客户,这部分客户需要重点关注,同时还要关注他们的消费金额和消费行为习惯等。

3.4.4用户行为间的转化情况

(1)用户行为转化漏洞分析

select behavior as 用户行为,count(behavior) as 用户行为次数 
		from userbehavior
		group by behavior
		order by count(behavior) desc

在这里插入图片描述
在这里插入图片描述
由以上漏斗图分析知:用户从进入APP浏览页面,在购买环节的最终转化率为2%,用户在点击页面后用户流失巨大,从浏览到购买转化率如何。用户购买的路径主要有以下两种:
在这里插入图片描述

  • 点击-收藏-购买的转化路径分析:
select count(distinct a.UserID) "点击数",
	   count(distinct b.UserID) "收藏数",
	   count(distinct c.UserID) "购买数"
     from 
	   (select distinct UserID,ItemID,Category,time from userbehavior where Behavior = "pv") as a 
	   left join
	   (select distinct UserID,ItemID,Category,time from userbehavior where Behavior = "fav") as b 
	   on (a.UserID = b.UserID and a.ItemID = b.ItemID and a.Category = b.Category and a.time < b.time)
	   left join
	   (select distinct UserID,ItemID,Category,time from userbehavior where Behavior = "buy") as c
	   on (b.UserID = c.UserID and b.ItemID = c.ItemID and b.Category = c.Category and b.time < c.time)	

在这里插入图片描述
在这里插入图片描述
用户在浏览商品后,大约1/5的用户会进行收藏,然后收藏中的用户大约有13.26%的用户会进行购买。

  • 点击-加入购物车-购买的转化路径分析:
select count(distinct a.UserID) "点击数",
	   count(distinct b.UserID) "加入购物车数",
	   count(distinct c.UserID) "购买数"
     from 
	   (select distinct UserID,ItemID,Category,time from userbehavior where Behavior = "pv") as a 
	   left join
	   (select distinct UserID,ItemID,Category,time from userbehavior where Behavior = "cart") as b 
	   on (a.UserID = b.UserID and a.ItemID = b.ItemID and a.Category = b.Category and a.time < b.time)
	   left join
	   (select distinct UserID,ItemID,Category,time from userbehavior where Behavior = "buy") as c
	   on (b.UserID = c.UserID and b.ItemID = c.ItemID and b.Category = c.Category and b.time < c.time)	

在这里插入图片描述
在这里插入图片描述
从上图可以看出用户浏览商品后,大概会有41.13%的用户加入购物车,比进行收藏的用户高很多,但是加入购物车后,只有17%左右的用户最终进行了购买,80%多的用户并没有进行购买,这个环节是需要我们去分析的。推测原因可能是:
1.加入购物车是为了与不同店铺的同种产品进行比价;
2.为了凑单,进行满减;
3.先放着,过几天再购买;
4.等活动优惠

业务问题在点击后用户流失率较高,那么用户流失的原因是什么?
淘宝推送是根据用户日常的浏览行为数据,比如日常搜索的关键词,收藏和加购的商品,已经关注的店铺,还有购买记录等,综合判断来给用户进行推送可能感兴趣的商品。如果淘宝的推送机制合理,那么推送的商品和用户需求的商品将会呈现较高的匹配度,从而用户最终的购买转化率也相应较高,从而推送的商品销量变高,变成热销商品;反之则较低,即表明用户流失严重。本次分析使用假设检验分析方法对用户流失原因进行分析。分析思路如下图所示:
在这里插入图片描述
提出假设:平台推送的商品和用户需求不匹配,导致用户在浏览过程中没有找到喜欢的商品,进而导致用户流失。
收集证据:统计用户数量、商品数量、商品类别数和用户行为类型数等。

select count(distinct UserID) as 用户数,
	   count(distinct ItemID) as 商品数,
	   count(distinct Category) as 商品类别,
	   count(distinct behavior) as 用户行为类型
	 from userbehavior		 

在这里插入图片描述
可以看到数据集中用户数有37376各,930317个商品,商品类型7106种,4种用户行为。
表明数据集中类别丰富,商品数量和种类充足。
在前面已经分析了用户对哪些商品有喜好,这里重点关注用户点击的商品和用户下单的商品之间的关系,是否支持我们的假设:平台推送的商品和用户需求不匹配

  • 商品点击量排名前十的商品种类:
select Category 商品种类,count(Category) as 点击次数
	from userbehavior
		 where behavior = "pv"
		 group by Category
		 order by 点击次数 desc
		 limit 10;

在这里插入图片描述
在这里插入图片描述

  • 商品点击量排名前十的商品:
select  ItemID 商品ID,Category 商品所属种类, count(ItemID) as 点击次数
		from userbehavior
		where behavior = "pv"
		group by ItemID
		order by 点击次数 desc
		limit 10;

在这里插入图片描述
在这里插入图片描述
我们看到点击量中前十的商品中最多的是4756105,符合商品点击品类。然后有4个商品都属于3607361,说明这两个品类的商品比较受欢迎。商品id主要集中在812879,3845720,2331370这几个商品上。
分析完点击量之后,分析一下热销的商品即可找出点击量与购买量之间的关系。

  • 查询点击量前十的购买率
select distinct u3.ItemID 商品ID,
		u3.点击次数,count(u1.ItemID) as 购买次数,
		concat((count(u1.ItemID) * 100)  / u3.点击次数, "%") as 购买率
	  from userbehavior u1,
		(select ItemID,Category,count(ItemID) 点击次数
		from userbehavior
		where behavior = "pv"
		group by ItemID
		order by 点击次数 desc
		limit 10) u3
		where u1.ItemID = u3.ItemID
		and behavior = "buy"
		group by u3.ItemID
		order by u3.点击次数 desc

在这里插入图片描述
在这里插入图片描述
由上图我们可以看到点击最高的商品812879的购买率只有0.43%,而点击量排第五的商品购买率达到了4.43%。
结论:假设成立
通过以上分析,可以得出结论淘宝的推送机制不合理,推送的商品无法和用户的需求不匹配,导致用户在浏览过程中没有找到想要的商品,从而用户实际购买的转化率非常低,即用户流失严重。

以上分析只从推送商品的点击率去分析,维度比较单一,还应该考虑到商品种类和其它因素的影响进一步进行论证和分析

3.4.5用户价值分群(RFM模型)

RFM模型是衡量客户价值和客户创利能力的重要工具。该模型通过客户的最近交易行为(Recency)、交易频率(Frequency)以及交易金额(Monetary)三项指标来描述该客户的价值状况。一般来说,会将这三项指标分成几个区间进行评分,通过计算评分找到有价值的用户,并对用户进行分类。
最近一次消费(Recency):是指最近一次消费距离上一次消费之间的时间长短。它反映了客户对产品的态度以及对品牌价值的信任度,它关乎消费者的存留状况。
消费频率(Frequency):是指某个特定时间内消费的次数。它直接反映了客户的忠诚度,消费频率越高,忠诚度就越高;忠诚度越高的客户数量越多,公司的竞争优势越强,市场份额越大。
消费金额(Monetary):是指一定时间内消费某产品金额。它反映的是客户的价值,价值越高,给公司创造的利益就更大。
在这里插入图片描述
因为数据源里没有金额相关的信息,所以只通过R和F来对客户价值进行评分。
R:用户最近一次的购买时间到12月3日的时间差表示用户最近一次消费间隔
F:用户在11月25日到12月3日之间购买的次数表示用户消费频率
M:本次数据集未包含相关字段,故不考虑

(1)建立打分规格
在这里插入图片描述
(2)用户分类步骤
1.计算R、F、M值
2.给R、F、M按价值打分
3.计算价值的平均值,得出R、F、M价值的高低,高于平均值打分为“高”,反之则“低”
4.对比用户分类规则表,得出用户分类
在这里插入图片描述

  • 计算R、F、M值
    看一下消费时间间隔R的得分
create view score_R as
select UserID,
		(case when 购买天数 between 0 and 2 then 1
		when 购买天数 between 3 and 4 then 2
		when 购买天数 between 5 and 6 then 3
		when 购买天数 between 7 and 8 then 4 else 0 end
		)as 购买得分
from
		(select UserID,datediff(max(time_date),'2017-11-25')as 购买天数
		from userbehavior
		where behavior='buy'
		group by UserID)as a
		order by 购买得分 desc;

在这里插入图片描述
看一下购买频率F的得分:

create view score_F as
select UserID,
		(case when 购买次数 between 0 and 18 then 1
		when 购买次数 between 19 and 36 then 2
		when 购买次数 between 37 and 54 then 3
		when 购买次数 between 55 and 72 then 4 else 0 end 
		)as 购买频率得分
from
		(select UserID,count(behavior)as 购买次数
		from userbehavior
		where behavior='buy'
		group by UserID) b
		order by 购买频率得分 desc;

在这里插入图片描述
通过上面两个步骤,从两个维度:最近购买时间及购买频率,分别给用户进行了评分。接下来用这两项的每一项平均值作为判断高于还是低于,比如重要价值用户,必须是两项的分值都比平均值要高,才能作为重要价值的用户。
求两项评分的均值:
在这里插入图片描述
在这里插入图片描述
将获得的两项评分分别和它们的均值进行比较,对客户进行分类:

create view users_classify as
select UserID,
		(case when R>3 and F>1 then '重要价值用户'
		when R>3 and F<=1 then '重要保持用户'
		when R<=3 and F>1 then '重要发展用户'
		when R<=3 and F<=1 then '一般价值用户' else 0 end 
		)as 用户类型
from
		(select a.UserID,a.购买得分 as R,b.购买频率得分 as F
		from score_R as a inner join score_F as b
		on a.UserID=b.UserID) c;

在这里插入图片描述
用户类型计数:

select count(用户类型)  from users_classify where 用户类型='重要价值用户';
select count(用户类型)  from users_classify where 用户类型='重要保持用户';
select count(用户类型)  from users_classify where 用户类型='重要发展用户';
select count(用户类型)  from users_classify where 用户类型='一般价值用户';

在这里插入图片描述
对于重要价值用户,他们是最优质的用户,需要重点关注并保持, 应该提高满意度,增加留存;
对于重要保持用户,他们最近有购买,但购买频率不高,可以通过活动等提高其购买频率;
对于重要发展用户,他们虽然最近没有购买,但以往购买频率高,可以做触达,以防止流失;
对于一般价值用户,他们最近没有购买,以往购买频率也不高,特别容易流失,所以应该赠送优惠券或推送活动信息,唤醒购买意愿。

四、结论及建议

1、平台的人均访问数为91.82次,跳出率为5.8754%,可见用户经常使用,用户粘性较高。
2、访客数在11月25日和12月2日有明显增加,说明用户在周末比较活跃,应该在周末多进行一些促销活动促进销量。
3、淘宝用户活跃黄金时间段一般在晚上20点到22点,然而在9-16点用户更倾向于狼吞虎咽般点击后直接购买,19点-23点用户更愿意慢慢品尝,在点击浏览后加入购物车或收藏。可在20点到22点进行推广和宣传活动,推送促销活动可设置在9点-16点,刺激消费。
4、重点关注销量较高的商品和商品类别,如3122135,1464116这些品类,可推出爆款和个性化推荐。
5、用户加入购物车或收藏商品说明已心仪商品,然而变现的转化率仅仅只有16%和13%,转化率并不高,建议个性化推送购物车降价或优惠活动或满减活动,显示剩余库存刺激消费。
6、淘宝的推送机制不合理,推送的商品无法和用户的需求不匹配,导致用户在浏览过程中没有找到想要的商品,从而用户实际购买的转化率非常低,即用户流失严重。
建议:

  • 建议通过发放优惠券、红包等形式,引导用户在点击浏览后将商品放入购物车或收藏,提高转化率;

  • 建议优化搜索和筛选功能,提高推送的针对性,让用户能够快速准确地找到目标商品;

  • 优化商品详情页和商品描述,增加类似商品比较功能,减少用户浏览选择时间。

7、利用RFM模型对用户进行分群,用户主要集中在重要发展客户和一般价值客户,利用有限的资源抓住重要发展客户(潜力用户),重要挖掘其潜在价值。

博主的其它数据分析实战项目看这里:
数据分析项目实战—信用卡客户违约概率预测
Kaggle数据分析入门之–酒店预订需求

大佬们点个赞和收藏都是对博主的大力支持哦,谢谢大家动动自己的手指。
在这里插入图片描述

<p> <span style="color:#3D3D3D;">本教程为授权出品</span> </p> <p> <span style="color:#3D3D3D;"><br /> </span> </p> <p> <span style="color:#3D3D3D;"><span style="color:#404040;">一、课程简介</span><br /> <span style="color:#404040;">数据仓库(Data Warehouse,可简写为DW或DWH),是面向分析的集成化数据环境,为企业决策制定过程,提供系统数据支持的战略集合,是国内外各大公司正在重点投入的战略级技术领域。</span></span> </p> <p> <span style="background-color:#FFFFFF;"><br /> </span><span style="color:#404040;">二、课程内容</span><br /> <span style="color:#404040;">《大数据电商数仓项目实战》视频教程,从项目架构的搭建,到数据采集模块的设计、数仓架构的设计、实战需求实现、即席查询的实现,我们针对国内目前广泛使用的Apache原生框架和CDH版本框架进行了分别介绍,Apache原生框架介绍中涉及到的技术框架包括Flume、Kafka、Sqoop、MySql、HDFS、Hive、Tez、Spark、Presto、Druid等,CDH版本框架讲解包括CM的安装部署、Hadoop、Zookeeper、Hive、Flume、Kafka、Oozie、Impala、HUE、Kudu、Spark的安装配置,透彻了解不同版本框架的区别联系,将大数据全生态系统前沿技术一网打尽。在过程中对大数据生态体系进行了系统的讲解,对实际企业数仓项目中可能涉及到的技术点都进行了深入的讲解和探讨。同时穿插了大量数仓基础理论知识,让你在掌握实战经验的同时能够打下坚实的理论基础。</span> </p> <p> <span style="background-color:#FFFFFF;"><br /> </span><span style="color:#404040;">三、课程目标</span><br /> <span style="color:#404040;">本课程以国内电商巨头实际业务应用场景为依托,对电商数仓的常见实战指标以及难点实战指标进行了详尽讲解,具体指标包括:每日、周、月活跃设备明细,留存用户比例,沉默用户、回流用户、流失用户统计,最近连续3周活跃用户统计,最近7天内连续3天活跃用户统计,GMV成交总额分析,转化率及漏斗分析,品牌复购率分析、订单表拉链表的设计等,让学生拥有更直观全面的实战经验。通过对本课程的学习,对数仓项目可以建立起清晰明确的概念,系统全面的掌握各项数仓项目技术,轻松应对各种数仓难题。</span> </p> <p> <span style="background-color:#FFFFFF;"><br /> </span><span style="color:#404040;">四、课程亮点</span><br /> <span style="color:#404040;">本课程结合国内多家企业实际项目经验,特别加入了项目架构模块,从集群规模的确定到框架版本选型以及服务器选型,手把手教你从零开始搭建大数据集群。并且总结大量项目实战中会遇到的问题,针对各个技术框架,均有调优实战经验,具体包括:常用Linux运维命令、Hadoop集群调优、Flume组件选型及性能优化、Kafka集群规模确认及关键参数调优。通过这部分学习,助学生迅速成长,获取前沿技术经验,从容解决实战问题。</span> </p> <p> <br /> </p>
一、课程简介<br /> <br /> 随着技术的飞速发展,经过多年的数据积累,各互联网公司已保存了海量的原始数据和各种业务数据,所以数据仓库技术是各大公司目前都需要着重发展投入的技术领域。数据仓库是面向分析的集成化数据环境,为企业所有决策制定过程,提供系统数据支持的战略集合。通过对数据仓库中数据的分析,可以帮助企业改进业务流程、控制成本、提高产品质量等。<br /> <br /> 二、课程内容<br /> <br /> 本次精心打造的数仓项目的课程,从项目架构的搭建,到数据采集模块的设计、数仓架构的设计、实战需求实现、即席查询的实现,我们针对国内目前广泛使用的Apache原生框架和CDH版本框架进行了分别介绍,Apache原生框架介绍中涉及到的技术框架包括Flume、Kafka、Sqoop、MySql、HDFS、Hive、Tez、Spark、Presto、Druid等,CDH版本框架讲解包括CM的安装部署、Hadoop、Zookeeper、Hive、Flume、Kafka、Oozie、Impala、HUE、Kudu、Spark的安装配置,透彻了解不同版本框架的区别联系,将大数据全生态系统前沿技术一网打尽。在过程中对大数据生态体系进行了系统的讲解,对实际企业数仓项目中可能涉及到的技术点都进行了深入的讲解和探讨。同时穿插了大量数仓基础理论知识,让你在掌握实战经验的同时能够打下坚实的理论基础。<br /> <br /> <br /> 三、课程目标<br /> <br /> 本课程以国内电商巨头实际业务应用场景为依托,对电商数仓的常见实战指标以及难点实战指标进行了详尽讲解,具体指标包括:每日、周、月活跃设备明细,留存用户比例,沉默用户、回流用户、流失用户统计,最近连续3周活跃用户统计,最近7天内连续3天活跃用户统计,GMV成交总额分析,转化率及漏斗分析,品牌复购率分析、订单表拉链表的设计等,让学生拥有更直观全面的实战经验。通过对本课程的学习,对数仓项目可以建立起清晰明确的概念,系统全面的掌握各项数仓项目技术,轻松应对各种数仓难题。<br /> <br /> 四、课程亮点<br /> 本课程结合国内多家企业实际项目经验,特别加入了项目架构模块,从集群规模的确定到框架版本选型以及服务器选型,手把手教你从零开始搭建大数据集群。并且总结大量项目实战中会遇到的问题,针对各个技术框架,均有调优实战经验,具体包括:常用Linux运维命令、Hadoop集群调优、Flume组件选型及性能优化、Kafka集群规模确认及关键参数调优。通过这部分学习,助学生迅速成长,获取前沿技术经验,从容解决实战问题。<br /> <br /> <br /> <div> <br /> </div>
相关推荐
<p style="font-size:medium;"> <span style="font-size:18px;color:#FF0000;">课程目标</span> </p> <p style="font-size:medium;"> <span style="font-size:18px;">学习完本门课程,您将对自然语言处理技术有更深入的了解, </span><span style="font-size:18px;">掌握基于深度学习情感分析方法;课程基于</span><span style="font-size:18px;">PyTorch</span><span style="font-size:18px;">主流框架实现,其中涉及深度学习主流框架</span><span style="font-size:18px;">LSTM</span><span style="font-size:18px;">模型以及自然语言处理的词向量;</span><span style="font-size:18px;">彻底掌握</span><span style="font-size:18px;">中文情感分析。</span> </p> <p style="font-size:medium;"> <span style="font-size:18px;color:#FF0000;">适用人群</span> </p> <p style="font-size:medium;"> <span style="font-size:18px;">想要从事NLP的在校学生、NLP研发工程师</span> </p> <p style="font-size:medium;"> <span style="font-size:18px;">自然语言处理从业者、深度学习爱好者</span> </p> <p style="font-size:medium;"> <span style="font-size:18px;color:#FF0000;">课程简介</span> </p> <p style="font-size:medium;"> <span style="font-size:18px;">NLP领域的热门应用,常用在舆情分析,文章分类,智能</span><span style="font-size:18px;">客服,情感分析等</span><span style="font-size:18px;">多个场景</span><span style="font-size:18px;">。情感分析作为</span><span style="font-size:18px;">自然语言处理的基础技术一</span><span style="font-size:18px;">,常被用于电商评论、舆情监控、</span><span style="font-size:18px;color:#FF0000;">微博评论情感分析</span><span style="font-size:18px;">、话题监督等领域,</span><span style="font-size:18px;">因此深入</span><span style="font-size:18px;">掌握情感分析技术</span><span style="font-size:18px;">,是作为自然语言处理从</span><span style="font-size:18px;">业者必备技能</span><span style="font-size:18px;">,本课程以案例驱动出发,结合多个项目实战案例,覆盖多种算法,</span><span style="font-size:18px;">如</span><span style="font-size:18px;">RNN</span><span style="font-size:18px;">,</span><span style="font-size:18px;">LSTM</span><span style="font-size:18px;">等</span> </p> <p style="font-size:medium;"> <span style="font-size:18px;color:#FF0000;">课程要求:</span> </p> <p style="font-size:medium;"> <span style="font-size:18px;">(1)开发环境:python版本:Python3.7; </span><span style="font-size:18px;color:#FF0000;">torch 版本:</span><span style="font-size:18px;color:#FF0000;">1.</span><span style="font-size:18px;color:#FF0000;">3</span><span style="font-size:18px;color:#FF0000;">.0+; torch</span><span style="font-size:18px;color:#FF0000;">text</span><span style="font-size:18px;color:#FF0000;">版本</span><span style="font-size:18px;color:#FF0000;">:</span><span style="font-size:18px;color:#FF0000;">0.</span><span style="font-size:18px;color:#FF0000;">3</span><span style="font-size:18px;color:#FF0000;">.0</span><span style="font-size:18px;color:#FF0000;">+</span> </p> <p style="font-size:medium;"> <span style="font-size:18px;">(2)开发工具:Pycharm;</span> </p> <p style="font-size:medium;"> <span style="font-size:18px;">(3)学员基础:需要一定的Python基础,及深度学习基础;</span> </p> <p style="font-size:medium;"> <span style="font-size:18px;">(4)学员收货:</span><span style="font-size:18px;">掌握深度学习情感分类关键</span><span style="font-size:18px;">技术;</span> </p> <p style="font-size:medium;"> <span style="font-size:18px;">(5)学员资料:内含完整程序源码和数据集;</span> </p> <p style="font-size:medium;"> <span style="font-size:18px;">(6)课程亮点:专题技术,完整案例,全程实战操作,徒手撸代码。</span> </p> <p style="font-size:medium;"> <span style="font-size:18px;"><br /></span> </p> <p style="text-align:center;font-size:medium;"> <span style="font-size:18px;"><img src="https://img-bss.csdn.net/202002100142351682.png" alt="" /><br /></span> </p> <p style="text-align:center;font-size:medium;"> <span style="font-size:18px;"><img src="https://img-bss.csdn.net/202002100143361272.png" alt="" /><br /></span> </p> <p style="text-align:center;font-size:medium;"> <span style="font-size:18px;"><img src="https://img-bss.csdn.net/202002100144109896.png" alt="" /><br /></span> </p> <p style="text-align:center;font-size:medium;"> <span style="font-size:18px;"><img src="https://img-bss.csdn.net/202002100144545929.png" alt="" /><br /></span> </p> <p style="text-align:left;font-size:medium;"> <span style="font-size:32px;">案例5-情感分析功能点</span> </p> <p style="text-align:center;font-size:medium;"> <img src="https://img-bss.csdn.net/202002131018235991.png" alt="" /></p> <p style="text-align:center;font-size:medium;"> <br /></p> <p style="text-align:center;font-size:medium;"> <span style="font-size:18px;"><br /></span> </p> <p style="text-align:center;font-size:medium;"> <span style="font-size:18px;"><br /></span> </p> <p style="text-align:center;font-size:medium;"> <span style="font-size:18px;"><br /></span> </p>
<span style="color:#404040;">如今的大数据技术应用场景,对实时性的要求已经越来越高。作为新一代大数据流处理框架,由于非常好的实时性,Flink独树一帜,在近些年引起了业内极大的兴趣和关注。Flink能够提供毫秒级别的延迟,同时保证了数据处理的低延迟、高吞吐和结果的正确性,还提供了丰富的时间类型和窗口计算、Exactly-once 语义支持,另外还可以进行状态管理,并提供了CEP(复杂事件处理)的支持。Flink在实时分析领域的优势,使得越来越多的公司开始将实时项目向Flink迁移,其社区也在快速发展壮大。</span><br /> <br /> <span style="color:#404040;">目前,Flink已经成为各大公司实时领域的发力重点,特别是国内以阿里为代表的一众大厂,都在全力投入,不少公司为Flink社区贡献了大量源码。如今Flink已被很多人认为是大数据实时处理的方向和未来,很多公司也都在招聘和储备了解掌握Flink的人才。</span><br /> <br /> <span style="color:#404040;">本教程将Flink理论与电商数据分析项目实战并重,对Flink基础理论知识做了系统的梳理和阐述,并通过电商用户行为分析的具体项目用多个指标进行了实战演练。为有志于增加大数据项目经验、扩展流式处理框架知识的工程师提供了学习方式。</span><br /> <br /> <span style="color:#404040;">二、教程内容和目标</span><br /> <span style="color:#404040;">本教程主要分为两部分:</span><br /> <span style="color:#404040;">第一部分,主要是Flink基础理论的讲解,涉及到各种重要概念、原理和API的用法,并且会有大量的示例代码实现;</span><br /> <span style="color:#404040;">第二部分,以电商作为业务应用场景,以Flink作为分析框架,介绍一个电商用户行为分析项目的开发实战。</span><br /> <span style="color:#404040;">通过理论和实际的紧密结合,可以使学员对Flink有充分的认识和理解,在项目实战中对Flink和流式处理应用的场景、以及电商分析业务领域有更深刻的认识;并且通过对流处理原理的学习和与批处理架构的对比,可以对大数据处理架构有更全面的了解,为日后成长为架构师打下基础。</span><br /> <br /> <span style="color:#404040;">三、谁适合学</span><br /> <span style="color:#404040;">1、有一定的 Java、Scala 基础,希望了解新的大数据方向的编程人员</span><br /> <span style="color:#404040;">2、有 Java、Scala 开发经验,了解大数据相关知识,希望增加项目经验的开发人员</span><br /> <span style="color:#404040;">3、有较好的大数据基础,希望掌握Flink及流式处理框架的求职人员</span>
©️2020 CSDN 皮肤主题: 技术黑板 设计师:CSDN官方博客 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值