![](https://img-blog.csdnimg.cn/20210416140344705.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据笔记
大数据笔记
赵昕彧
这个作者很懒,什么都没留下…
展开
-
HDFS文件以流的形式输出供前端下载
之前有使用过Java使用hdfs相关API下载文件,但前后端交互有时会会没办法使用,本次需求是将HDFS文件使用流的形式下载下来。原创 2023-03-08 17:24:44 · 242 阅读 · 0 评论 -
Kettle连接MySQL、HDFS、Hive
一、简介hadoop版本:2.7.2kettle(pdi)版本:8.3.0使用方式:在windows上使用kettle连接到一台linux的hadoop。二、操作MySQL1、将mysql-connector-java-XXX.jar拷贝到data-integration\lib目录下。2、启动kettle,然后新建表输入,选择mysql,填入相应内容。3、进行测试,如果没有问题则会成功。HDFS1、首先进入~\data-integration\plugins\pentaho-b.原创 2022-04-08 18:49:13 · 4012 阅读 · 0 评论 -
Spark——Mysql2Hive2Vetica
示例从Mysql同步数据到Hive,再从Hive同步数据到Vertica一、pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.ap.原创 2021-05-29 17:22:41 · 166 阅读 · 0 评论 -
Sqoop简介、安装和使用
一、安装和配置1、下载地址:点击下载2、解压后,将hadoop目录下的 share/hadoop/common/hadoop-common-2.6.0-cdh5.4.0.jar、share/hadoop/hdfs/hadoop-hdfs-2.6.0-cdh5.4.0.jar、share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.6.0-cdh5.4.0.jar拷贝到sqoop目录的lib下。然后将mysql-connector-java-XXX.j.原创 2021-05-25 17:18:32 · 225 阅读 · 0 评论 -
Java操作HBase
Java操作HBase导入配置文件代码public class Demo{ Admin admin = null; Connection conn = null; //构造代码块 { try { //创建配置 Configuration conf = HBaseConfigurat...原创 2019-12-15 16:36:29 · 81 阅读 · 0 评论 -
Spark自定义累加器实现WordCount
Spark自定义累加器实现WordCount自定义累加器,继承AccumulatorV2继承后需要实现几个方法class AccWordCount extends AccumulatorV2[String, mutable.HashMap[String, Int]]{ override def isZero: Boolean = ??? override def cop...原创 2019-12-17 19:32:28 · 270 阅读 · 0 评论 -
Hadoop——Sqoop工具
Sqoop工具的安装和使用基本介绍:Sqoop是sql to hadoop的简称,属于RDBMS和Hadoop之间传递数据的工具.以HDFS为中心,从RDBMS到Hadoop为导入(import),反之则为导出(export)1.安装Sqoop版本:1.4.6(1)解压到opt目录tar zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C...原创 2020-01-08 13:53:05 · 140 阅读 · 0 评论 -
MapReduce代码中,Job.waitForCompletion方法及System.exit方法
Job.waitForCompletion简述:事实上,存在waitForCompletion(true)和waitForCompletion(false),前者表示运行进度信息将输出给用户,后者表示仅仅等待作业结束.......// 提交jobboolean result = job.waitForCompletion(true);System.exit(result ? 0 : 1)...原创 2020-01-08 21:30:07 · 4190 阅读 · 0 评论 -
Java操作HDFS
Java操作HDFS导入所需配置文件代码import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import org.junit.Test;import java.io.IOException;public class Demo{ FileSystem fs = null; ...原创 2019-12-15 16:12:19 · 89 阅读 · 0 评论 -
Scala样例类(case class)
一、简介case class是一种可以用来快速保存数据的类,可以认为是java中的pojo类,用于对象数据的保存。它自己已经帮助我们实现了以下方法applytoStringequalshashCodecopy二、示例object test { def main(args: Array[String]): Unit = { // 使用样例类 val person = user("aa", 11) // 使用fun方法解构刚刚创建的.原创 2021-04-16 16:59:09 · 3719 阅读 · 0 评论 -
Scala apply方法和unapply方法
一、scala的函数和方法在scala中,有函数和方法之分,使用val定义函数,用def定义方法。它们各有特点。函数定义方式:val 函数变量名 = (参数名:参数类型, 参数名:参数类型…) => 函数体函数是一个对象,在运行时,它是加载到JVM的方法区中的。方法定义方式:def 方法名(参数名:参数类型, 参数名:参数类型) : [return 返回值类型] = { }参数列表的数据类型不能省略,但是返回值可以省略(编译器自动推断,但是递归方法不能省略返回值类型)。可以将函.原创 2021-04-16 16:09:55 · 505 阅读 · 0 评论 -
Java中使用MapReduce实现WordCount
Java中使用hadoop实现WordCountMap端import org.apache.hadoop.io.*;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;public class WordCountMap extends Mapper<LongWritable, Text, Tex...原创 2019-12-15 15:48:08 · 647 阅读 · 0 评论 -
Spark的多种wordcount写法
一、经典写法:SparkCoreimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object sparkcore_wordcount { def main(args: Array[String]): Unit = { // 参数配置 val conf = new SparkConf().setMaster("local[2]").setAppNam.原创 2021-03-31 16:35:48 · 330 阅读 · 0 评论 -
Scala隐式(Implicit)
隐式(implicit)隐式的意义所在隐式转换让代码具有简洁性,但是降低了可读性。事实上它故意省略了一些代码,让机器自我推断。Scala在面对编译出现类型错误时,提供了一个由编译器自我修复的机制,编译器试图去寻找一个隐式implicit的转换方法,转换出正确的类型,完成编译。简单示例package implicit_testobject a_implicit_test { def foo(msg: String): Unit = println(msg) def main(原创 2020-10-15 11:12:26 · 184 阅读 · 0 评论 -
Hive中UDF、UDTF 、UDAF函数详解及示例
文章目录一.自定义函数意义UDF函数UDTF函数UDAF函数二.示例操作UDF函数示例UDTF函数示例UDAF函数示例一.自定义函数意义在Hive的使用中,系统内置函数有时无法满足业务需求,这时就需要开发者自己编写函数来实现业务需求。自定义函数,极大丰富了个性化定制的需要,使Hive得到了极大的拓展。Hive有三种自定义函数,可以实现不同方面的需求。UDF函数常见的函数类型,...原创 2020-05-03 18:19:05 · 6677 阅读 · 0 评论 -
Hadoop文件存储格式
一.压缩形式记录压缩概念:每条记录都进行压缩,但是仅压缩value块压缩概念:将一个文件分成多个块,分别进行压缩(同时压缩多条记录),块与块之间会有标识(syen mark),这样对于每个块的处理就可以并行执行。二.行式存储和列式存储概念行式存储传统关系型数据库,比如Oracle、Mysql、SQL Server等采用此类方式存储,一行数据在存储介质中连续保存。它适合...原创 2020-04-25 20:59:10 · 3277 阅读 · 0 评论 -
Hive调优(配置、表优化、MR优化等)
一.配置优化1.Fetch概念:Hive中某些查询可以不必进行MR运算,比如select X from table,简单的读取和输出table对应目录下的文件,可以不必使用到MR。此时可以查看hive.fetch.task.conversion的设置,可以看到<property> <name>hive.fetch.task.conversi...原创 2020-04-24 20:40:44 · 660 阅读 · 0 评论 -
Spark Shuffle(ShuffleManager发展、ShuffleMapStage & FinalStage、任务个数、Shuffle Writer、Shuffle Read)
ShuffleManager发展Shuffle过程的执行、计算、处理的组件主要是ShuffleManager第一代:在1.2以前使用的ShuffleManager,默认shuffle计算引擎是HashShuffleManager,而它有一个弊端,就是会产生很多的中间磁盘文件,产生大量的IO,严重影响了性能。第二代:ShuffleManager弃用了HashShuffleManager,改成...原创 2020-04-24 11:25:34 · 743 阅读 · 0 评论 -
使用一个JPS查看整个集群的系统状态
使用一个JPS查看整个集群的系统状态1.备注在使用集群的时候,一个一个去使用jps查询状态会比较麻烦,这时候可以写一个脚本来查询整个集群的状态实现方法有很多,但是选择比较稳妥的方法比较好2.实现步骤1.将所有集群 jdk/bin 下的jps文件修改名字为 jps.template,以便以后需要更换回来cd /opt/jdk1.8.0_181/binmv jps jps.templ...原创 2020-02-19 10:44:17 · 1030 阅读 · 0 评论 -
Hadoop——9000端口拒绝远程连接
记一次Hadoop远程连接失败背景1.防火墙已经关闭2.所有的节点已经启动3.启动时没有已经被占用的9000端口4./etc/hosts映射已经添加无误启动情况9000端口已经启动,但是前面显示的时127.0.0.1,这时候使用远程访问失败修改core-site.xml,将原本配置的localhost改成映射的ip地址或者映射的名称(此处设置的hadoop) ...原创 2020-01-30 22:26:02 · 5679 阅读 · 2 评论