大数据开发
大数据方面的技术应用,本人开发过程中的踩坑记录与学习心得。
潇潇雨歇_
www
展开
-
Linux搭建sqoop数据迁移工具及简单的数据迁移测试
1.准备环境及工具JDK 1.8 已搭建 Hadoop 3.1.1 已搭建 zookeeper 3.5.5 下载 hbase 2.2.0 下载 hive 3.1.1 已搭建 sqoop-1.4.7 下载 ojdbc8(该版本的驱动支持jdk1.8) 下载2.搭建zookeeper 3.5.5单机模式2.1 解压zookeepertar -zxvf apach...原创 2019-07-11 15:29:17 · 2401 阅读 · 0 评论 -
Hive环境搭建,并配置Oracle作为元数据库
1.准备工具及环境: 1.1 hadoop环境(之前已经安装,不介绍) 1.2 hive-3.1.1 下载 1.3 Oracle服务器(已搭建,不介绍) 1.4 ojdbc8(该版本的驱动支持jdk1.8) 下载2.Hive的安装 2.1 使用WinSCP上传已下载的Hive安装包至指定安装路径(/home/fangw/bigData),并用命令tar -zxvf ap...原创 2019-07-09 14:53:46 · 2495 阅读 · 0 评论 -
Hbase Java API对数据的一些操作使用
代码:1.一些依赖<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.or...原创 2019-05-25 19:54:23 · 484 阅读 · 0 评论 -
SpringBoot集成Hadoop系列二 ---- MapReduce对表的join操作
代码:package com.hadoop.reduce.model;import org.apache.hadoop.io.Writable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;/** * 订单商品对象 * @author linhaiy * @da...原创 2019-05-23 20:44:05 · 1245 阅读 · 0 评论 -
SpringBoot集成Hadoop系列二 ---- MapReduce数据的分组统计,排序
代码:package com.hadoop.reduce.model;import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;/** * 分组排序model类 * @author ...原创 2019-05-23 20:34:12 · 2132 阅读 · 0 评论 -
SpringBoot集成Hadoop系列二 ---- MapReduce明星微博统计
代码:package com.hadoop.reduce.model;import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;/** * 统计明星微博数据实体 * @author ...原创 2019-05-23 20:25:08 · 905 阅读 · 0 评论 -
SpringBoot集成Hadoop系列二 ---- MapReduce统计数据文件的共同好友
代码:package com.hadoop.reduce.mapper;import java.io.IOException;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;/** * 查找共...原创 2019-05-23 20:14:56 · 1010 阅读 · 0 评论 -
SpringBoot集成Hadoop系列二 ---- MapReduce一年最高气温统计
代码:package com.hadoop.reduce.mapper;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.ap...原创 2019-05-23 20:05:46 · 2279 阅读 · 2 评论 -
SpringBoot集成Hadoop系列二 ---- MapReduce词频统计
继上篇SpringBoot集成Hadoop系列一 ---- 对HDFS的文件操作建的工程,接下来使用MapReduce进行一些数据文件的统计开发.这里做一个很经典的统计功能,词频统计. 代码:package com.hadoop.reduce.mapper;import java.io.ByteArrayInputStream;import java.io.IOE...原创 2019-05-23 19:52:23 · 3434 阅读 · 1 评论 -
SpringBoot集成Hadoop系列一 ---- 对HDFS的文件操作
一.对HDFS操作设计以下几个主要的类:Configuration:封装了客户端或者服务器的配置信息FileSystem:此类的对象是一个文件系统对象,可以用该对象的一些方法来对文件进行操作通过FileSystem的静态方法get获得该对象,例:FileSystem hdfs = FileSystem.get(conf);FSDataInputStream:这是HDFS中的输入流,通过...原创 2019-05-23 19:32:43 · 30060 阅读 · 13 评论 -
Windows系统搭建Hbase开发环境
继Windows系统搭建Hadoop,Spark开发环境 文章之后,接下来搭建Windows环境下Hbase开发环境,环境搭建均为单机使用模式,仅供学习。因在Linux系统上搭建流程较为繁琐,实在没必要浪费太多精力在搭建环境上面,所以步骤越简单越好,能迅速学到大数据框架的开发技术才是最重要的。Hbase是构建在Hadoop HDFS之上的,所以需要Hadoop的支持。前面已经介绍过Hadoop的搭...原创 2019-05-16 15:52:45 · 1769 阅读 · 0 评论 -
Windows系统搭建Hadoop,Spark开发环境
1.准备工具: 1.Hadoop所需要替换的bin目录下的文件 2.Hadoop 3.1 3.spark-2.3.1 4.JDK 1.8工具下载: 下载2.解压配置2.1 将下载好的Hadoop 和 Spark进行解压,并重命名,此处我重名为:hadoop-3.1.0和spark2.2 将准备工具中的第一项下载的包(hadoop3.1-bin)进行解压,...原创 2019-05-15 18:42:08 · 2689 阅读 · 1 评论