spark学习-53-Spark下Java版HBase下的根据权重获取最真实数据

最新推荐文章于 2022-12-17 12:44:15 发布

九师兄

最新推荐文章于 2022-12-17 12:44:15 发布

阅读量1k

点赞数

分类专栏：大数据-spark 文章标签： spark 数据求真权重 java hbase

本文为博主九师兄（QQ:541711153 欢迎来探讨技术）原创文章，未经允许博主不允许转载。

本文链接：https://blog.csdn.net/qq_21383435/article/details/78735885

版权

大数据-spark 专栏收录该内容

204 篇文章 480 订阅 ¥49.90 ¥99.00

订阅专栏

本文介绍了如何在Spark环境下，利用Java处理HBase数据，通过设定不同来源数据的权重，来确定最真实的数据。以一个示例说明了当存在相同身份证但来源不同、权重不同时，如何根据权重确定姓名和性别等信息。同时，提供了测试步骤，包括HBase建表、添加数据，并给出了代码实现和运行结果。在大数据量情况下，可能会遇到RegionTooBusyException的问题，文章也提到了相关解决方案。

摘要由CSDN通过智能技术生成

在这里插入图片描述

1.概述

Spark下Scala版HBase下的根据权重获取最真实数据:http://blog.csdn.net/qq_21383435/article/details/78772206

1。我们有一个一批数据，数据格式相同，但是来源不同，根据来源有不同的真实级别，比方说编号0001是来自确认的警察局的数据，这个数据的真实度为100%，那么权重看可以设置为100，编号0002是来自人才市场的数据，这个数据的真实度为90%（因为可能有人信息不太真实，比如年龄），那么权重看可以设置为90，编号0003是来自智联招聘的数据，这个数据的真实度为80%（因为可能有人信息不太真实，比如年龄），那么权重看可以设置为80，
假设数据如下：

Hbase的key	  身份证 身份证  类型  姓名    性别   出生日期     籍贯  		婚姻状况  学历		国家		民族  数据来源编号	年龄	身高	体重		专业		简介				
01_1_00106----1x----1x----ID----张山----男----1991/11/1----河南省息县1----无----高中-

了解本专栏