hive+R 实现大数据下属性间相关性的热力图展示

最新推荐文章于 2024-08-20 22:20:09 发布

QingKong0518

最新推荐文章于 2024-08-20 22:20:09 发布

阅读量2.6k

点赞数 3

文章标签： java hive R语言

本文链接：https://blog.csdn.net/qq_30800447/article/details/76268413

版权

该博客介绍了如何使用Hive结合R语言进行大数据属性间相关性的热力图展示。首先通过Sqoop将MySQL数据导入Hive，接着进行数据维度转换，利用Map处理数据并进行二维化。然后，通过Java连接R，将数据存入R的数据框进行相关性分析。最终，使用R画出热力图，展示属性间的相关性强度。

摘要由CSDN通过智能技术生成

hive+R 实现大数据下属性间相关性的热力图展示

这是自己完成的第一个小程序，特将有价值的地方在此记录下来，包括以下几部分内容：

Hive数据导入–Sqoop方式
Map键值对实现Excel数据透视表的功能
Java连接R
将数据存入R的数据框
Java调用R函数作图

一、Hive数据导入

Hive数据常见的导入方式主要有四种：
（1）、从本地文件系统中导入数据到Hive表；
（2）、从HDFS上导入数据到Hive表；
（3）、从别的表中查询出相应的数据并导入到Hive表中；
（4）、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。
这里是选择第三种方式，先将数据导入到本地关系数据库MySql中，然后在Hive中新建相应的表，语句如下：

create table mytable(id string, samaddr string, samno string, class string, time string, year int, month int, day int, norm string, tno int, tname string, value double)row format delimited fields terminated by ’\t’

运用以下Sqoop语句将mysql表中的数据导入到Hive表：

sqoop import –hive-import –connect jdbc:mysql://localhost:3306/mytable –username root –password mypassword –table mytable –hive-database mydatabase –hive -table mytable;

二、数据维度转换

由于R分析相关性是针对每一个指标的值进行相关系数分析，然而数据库中所有指标都放在targetNo属性中，其相当于是一维的数据表，需要按每一个数据记录将targetNo中的指标编号重新转换为表的属性，相当于Excel中的数据透视表功能。这里使用Map进行实现，代码如下：

(1).取查询到的数据中所有的指标编号

private List<String> getMyTargetno(JSONArray ja) {
        List<String> targetnos=new ArrayList<String>();
        //保存所有指标编号到String
        for (int i = 0; i < ja.length(); i++) {
            try {
                JSONObject jo = (JSONObject) ja.get(i);
                String stargetno = jo.getString("targetno");
                targetnos.add(stargetno);
                if (i==0 ) {
                        targetnos.add(stargetno);;
                }else {
                    for (int j = i-1; j >=0; j--) {
                        if(stargetno.equals(targetnos.get(j)))
                            break; 
                        else {
                            targetnos.add(stargetno);
                        }   
                        break;
                    }
                }
            } catch (JSONException e) {
                e.printStackTrace();
            }
        }
        List<String> alltargetno = removeDuplicate(targetnos);//去掉重复项
        Collections.sort(alltargetno); //排序