1.概述
Spark下Scala版HBase下的根据权重获取最真实数据:http://blog.csdn.net/qq_21383435/article/details/78772206
1。我们有一个一批数据,数据格式相同,但是来源不同,根据来源有不同的真实级别,比方说编号0001是来自确认的警察局的数据,这个数据的真实度为100%,那么权重看可以设置为100,编号0002是来自人才市场的数据,这个数据的真实度为90%(因为可能有人信息不太真实,比如年龄),那么权重看可以设置为90,编号0003是来自智联招聘的数据,这个数据的真实度为80%(因为可能有人信息不太真实,比如年龄),那么权重看可以设置为80,
假设数据如下:
Hbase的key 身份证 身份证 类型 姓名 性别 出生日期 籍贯 婚姻状况 学历 国家 民族 数据来源编号 年龄 身高 体重 专业 简介
01_1_00106----1x----1x----ID----张山----男----1991/11/1----河南省息县1----无----高中-