spark学习-53-Spark下Java版HBase下的根据权重获取最真实数据

204 篇文章 480 订阅 ¥49.90 ¥99.00
本文介绍了如何在Spark环境下,利用Java处理HBase数据,通过设定不同来源数据的权重,来确定最真实的数据。以一个示例说明了当存在相同身份证但来源不同、权重不同时,如何根据权重确定姓名和性别等信息。同时,提供了测试步骤,包括HBase建表、添加数据,并给出了代码实现和运行结果。在大数据量情况下,可能会遇到RegionTooBusyException的问题,文章也提到了相关解决方案。
摘要由CSDN通过智能技术生成

在这里插入图片描述

1.概述

Spark下Scala版HBase下的根据权重获取最真实数据:http://blog.csdn.net/qq_21383435/article/details/78772206

1。我们有一个一批数据,数据格式相同,但是来源不同,根据来源有不同的真实级别,比方说编号0001是来自确认的警察局的数据,这个数据的真实度为100%,那么权重看可以设置为100,编号0002是来自人才市场的数据,这个数据的真实度为90%(因为可能有人信息不太真实,比如年龄),那么权重看可以设置为90,编号0003是来自智联招聘的数据,这个数据的真实度为80%(因为可能有人信息不太真实,比如年龄),那么权重看可以设置为80,
假设数据如下:

Hbase的key	  身份证 身份证  类型  姓名    性别   出生日期     籍贯  		婚姻状况  学历		国家		民族  数据来源编号	年龄	身高	体重		专业		简介				
01_1_00106----1x----1x----ID----张山----男----1991/11/1----河南省息县1----无----高中-
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

九师兄

你的鼓励是我做大写作的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值