用户画像知识点补充——多数据源

引入

针对用户画像项目来说(产品)必须要支持从多种数据源加载业务数据,构建用户标签。

在之前的标签模型开发中,主要是为了简化开发复杂度,业务数据统一存储到HBase表中。

        数据源包含如下几个方面:

        存储HDFS文件系统

        存储Hive表

        存储HBase表

        存储MySQL表

        存储NoSQL数据库:Redis数据库、MongoDB数据库

        存储Elasticsearch索引库

        存储Kafka分布式队列

        封装数据为RDD:

val offsetRanges = Array(
// topic, partition, inclusive starting offset, exclusive ending offset
OffsetRange(“test”, 0, 0, 100),
OffsetRange(“test”,1, 0, 100),
)

val rdd = KafkaUtils.createRDD[String, String](sparkContext, kafkaParams, offsetRanges, PreferConsistent)

        封装数据为DataFrame:

// Subscribe to multiple topics, specifyingexplicit Kafka offsets
val df = spark
.read
.format(“kafka”)
.option(“kafka.bootstrap.servers”, “host1:port1, host2:port2”)
.option(“subscribe”, “topic1, topic2”)
.option(“startingOffsets”, “””{“topic1”:{“0”:23,”1”:-2},”topic2”:{“0”:-2}}”””)
.option(“endingOffsets”, “””{“topic1”:{“0”:50,”1”:-1},”topic2”:{“0”:-1}}”””)
.load()
df.selectExpr(“CAST(key AS STRING)”, “CAST(value AS STRING)”)
.as[(String, String)]

用户数据多种数据源

进入正题,先说明一下我们的用户画像:

1)、面向业务的用户标签及用户画像管理中台

统一规范的标签可视化管理中台,业务人员可自助生产和维护标签,适应营销策略变化。

2)全端采集用户行为数据,整合业务数据等多种数据源,帮

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值