标签数据开发

一、统计类标签开发

1、近30日购买行为标签案例

2、最新来访标签案例

二、规则类标签

1、用户价值类案例

重要价值、重要保持、一般价值、一般发展

2、用户活跃度标签案例

高活跃、中活跃、低活跃、流失等标签。

三、挖掘类标签

1、案例背景

文章类别划分

2、特征选取及开发

标注:人工对一批文档进行精准分类,作为训练集样本;

训练:计算机从标注好的文档集中挖掘出能够有效分类的规则,生成分类器;

分类:将生成的分类器应用在待分类的文档集中,从而获得文档的分类结果

3、文本分词处理

4、数据结构处理

5、文本TF-IDF权重

6、朴素贝叶斯分类

四、流式计算标签开发

在做实时订单分析,或者给首次登录App的新人用户弹窗推送、发放红包,实时分析用户所处场景并进行推送有广泛的应用。

1、流式标签建模框架

Spark Streaming 是Spark Core API的扩展,支持实时数据流的处理,并且有可扩展性、高吞吐量、容错的特点。数据可以从Kafka、Flume等多个来源获取,可以使用map、reduce、window等多个高级函数对业务逻辑进行处理。

2、kafka简介

kafka的核心功能是作为分布式消息中间件。Kafka集群由多个Broker server组成,其中,消息发送者称为Producer;消息消费者称为Cousumer; broker 是消息处理的节点,多个broker组成Kafka集群;Topic是数据主题,用来区分不同的业务系统,消费者通过订阅不同的Topic来消费不同主题数据,每个topic又分为多个Partition,Partition是Topic的分组,每个Partition都是一个有序队列;offset用于定位消费者在每个Partition中消费的位置。

3、Spark Streaming集成kafka

Spark Streaming可以通过Receiver和Direct两种模式来集成Kafka。

在Receiver模式下,Spark Streaming作为Consumer拉取Kafka中的数据,将获取的数据存储在Executeor内存中。可能因为数据量过大而造成内存溢出,所以启用预写日志机制(Write Ahead Log)将溢出部分写入到HDFS中。

在Direct模式下,Spark Streaming 直接读取Kafka的topic中的所有Partition,获取offset。Spark Streaming中有一个InputStream,这个Dsteam的每一个分区对应着Kafka中需要消费的Topic的每一个分区,并且从Kafka中读取数据。在Direct模式下,是Spark Steaming自己追踪消费的Offset, 消除了与ZooKeeper不一致情况,处理和输出过程符合Exactly-once模式。

Spark Streaming对Kafka的集成有两个版本,一个是0.8版本,另
一个是0.10以上的版本,0.10以后只保留Direct模式。

4、标签开发及工程化

实时类标签的处理流程主要包括4个部分:
  • 读取数据源,这里讲解消费Kafka中的数据
  • 解析数据,
  • 将解析的数据存储到指定位置
  • 存储消费的Offset,Direct模式下需要保存消费到的位置

五、用户特征库开发

六、标签权重计算

七、标签相似度计算

八、组合标签计算

九、数据服务层开发

十、Graphx图计算用户

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值