大数据
笨鸟先飞-天道酬勤
程序建造师
展开
-
Flink DataSet 常用几种读取文件方式--Scala
1、环境 jdk 1.8.0_108 Scala 2.11.8 Flink 1.7.2 MySql 8.0.132、Maven依赖<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-scala_2.11<...原创 2019-11-22 11:46:34 · 4364 阅读 · 1 评论 -
Flink批处理之JDBC读写Mysql--Scala
1、环境 jdk 1.8.0_108 Scala 2.11.8 Flink 1.7.2 MySql 8.0.132、Maven依赖<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-scala_2.11<...原创 2019-11-20 14:30:37 · 4026 阅读 · 2 评论 -
Saprk 报错java.lang.IllegalArgumentException: Size exceeds Integer.MAX_VALUE
17/08/25 18:35:42 WARN scheduler.TaskSetManager: Lost task 1.1 in stage 176.0 (TID 25544, 192.168.3.20, executor 290): java.lang.IllegalArgumentException: Size exceeds Integer.MAX_VALUE at sun...原创 2017-08-25 22:46:48 · 9111 阅读 · 1 评论 -
Eclipse 安装 Hadoop 插件
Eclipse 安装 Hadoop 插件1、首先下载对应版本的hadoop插件 2、进入Eclipse的目录,找到Plugins文件夹,讲刚才下载的插件拷贝进去(注意,Eclipse最好要处于关闭状态) 3、打开,Eclipse,会发现左侧多了一个DFS Location,说明已经安装成功 4、打开Windows–Show View 5、选择Other 6、选择Map原创 2016-09-28 19:49:02 · 1093 阅读 · 3 评论 -
IntelliJ IDEA Maven,Eclispe Maven,sbt 创建spark Scala和Java项目
三种方式搭建spark项目 Eclipse Intellij IDEA SBT Scala原创 2016-11-25 19:32:35 · 2340 阅读 · 1 评论 -
Phoenix4.8.1 介绍 安装 与 图形化界面操作
phoenix 4.8.1 的安装 与图形界面原创 2016-11-11 19:05:20 · 4804 阅读 · 0 评论 -
CentOs mysql 的安装与默认安装目录修改
准备工作1、首先使用 rpm -qa|grep mysql 查看系统是否有自带的mysql2、如果有的话使用 yum remove mysql-server mysql-libs compat-mysql51 卸载掉3、rm -rf /var/lib/mysql rm /etc/my.cnf 4、查看是否还有mysql软件:rpm -qa|原创 2016-10-14 19:29:45 · 29135 阅读 · 0 评论 -
Hadoop 获取Active Namenode的IP地址
由于工作需要,需要拿到当前集群的Active Namenode的Ip地址,所以写以下小代码,防止忘记,记录一下:import java.io.IOException;import java.net.InetSocketAddress;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.f...原创 2017-08-23 15:01:10 · 8952 阅读 · 1 评论 -
sqoop1.4.6安装
前言:众所周知,sqoop2和sqoop1差别还是很大的,个人建议使用sqoop1。安装前提条件:1、jdk已经安装完成;2、hadoop集群可以正常启动;3、安装机器和数据库所在机器IP地址互通,且数据库端口没有被禁用。一、下载sqoop安装包http://archive.apache.org/dist/sqoop/1.4.6/1、下载完成后,得到sqoop-1.4...原创 2018-07-25 16:12:28 · 3315 阅读 · 0 评论 -
修改Zookeeper输出日志 zookeeper.out输出路径
使用过zookeeper的小伙伴都知道,当前终端处于哪个目录,执行完zkServer.sh start命令, zookeeper.out就会写在哪个目录,下次想看zookeeper日志的时候,又忘记上次在哪执行的命令啦,这真的很蛋疼(虽然可以每次固定在某个目录执行),在多次痛苦之后,决定修改日志输出到固定目录,方便问题定位。 查看bin目录下的zkEnv.sh找到了这一行,发...原创 2018-08-22 12:07:55 · 41334 阅读 · 9 评论 -
Hive DDL报错For direct MetaStore DB connections, we don’t support retries at the client level.
当在Hive中创建表的时候报错:create table test(name string, addrstring) row format delimited fields terminated by '\t';FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaEx...原创 2018-08-20 11:53:18 · 1833 阅读 · 0 评论 -
HBase基本数据操作详解【完整版,绝对精品】
引言之前详细写了一篇HBase过滤器的文章,今天把基础的表和数据相关操作补上。本文档参考最新(截止2014年7月16日)的官方Ref Guide、Developer API编写。所有代码均基于“hbase 0.96.2-hadoop2”版本编写,均实测通过。欢迎转载,请注明来源:http://blog.csdn.net/u010967382/article/details/3787870...转载 2018-11-16 09:20:48 · 620 阅读 · 0 评论 -
Hive SparkSql rank() over,dense_rank() over,row_number() over的使用与区别
一、建表语句create table student( name string, course string, score int)ROW FORMAT DELIMITEDFIELDS TERMINATED BY ','STORED AS TEXTFILE二、测试数据li shi,Chinese,96wang er,English,71zhang san...原创 2019-01-25 14:49:39 · 1549 阅读 · 0 评论 -
Phoenix Jdbc 连接HBase
Phoenix 连接hbase 的jdbc原创 2016-11-11 18:48:07 · 8943 阅读 · 0 评论 -
ZooKeeper安装配置+Hbase安装配置
Hbase zookeeper 配置安装原创 2016-10-19 16:47:43 · 626 阅读 · 0 评论 -
Hdfs 的读写操作
说明:本测试使用maven管理项目结构,测试前,请把 core-site.xml 拷贝到resource目录package hadoop.test;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import org.apache.hadoop.c...原创 2016-10-11 10:26:52 · 3220 阅读 · 0 评论 -
Mysql 练习题 及 答案
--1.学生表Student(S,Sname,Sage,Ssex) --S 学生编号,Sname 学生姓名,Sage 出生年月,Ssex 学生性别--2.课程表 Course(C,Cname,T) --C --课程编号,Cname 课程名称,T 教师编号--3.教师表 Teacher(T,Tname) --T 教师编号,Tname 教师姓名--4.成绩表 SC(S,C,score) --S 学生...原创 2016-10-21 11:27:09 · 47783 阅读 · 39 评论 -
mapreduce的二次排序(字符型)
import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.WritableComparable;public class StringPair implements WritableComparable { private ...原创 2016-10-11 10:15:42 · 555 阅读 · 0 评论 -
Hadoop性能调优
Hadoop为用户作业提供了多种可配置的参数,以允许用户根据作业特点调整这些参数值使作业运行效率达到最优。一 应用程序编写规范1.设置Combiner 对于一大批MapReduce程序,如果可以设置一个Combiner,那么对于提高作业性能是十分有帮助的。Combiner可减少Map Task中间输出的结果,从而减少各个Reduce Task的远程转载 2016-10-13 17:47:02 · 8724 阅读 · 1 评论 -
Hadoop Mapreduce原理
Hadoop是Apache 下的一个项目,由HDFS、MapReduce、HBase、Hive 和ZooKeeper等成员组成。其中,HDFS 和MapReduce 是两个最基础最重要的成员。HDFS是Google GFS 的开源版本,一个高度容错的分布式文件系统,它能够提供高吞吐量的数据访问,适合存储海量(PB 级)的大文件(通常超过64M),其原理如下图所示:采转载 2016-10-13 17:49:18 · 468 阅读 · 0 评论 -
Hive UDF UDTF UDAF 函数
1、UDF(时间格式转换)// 1、定义一个类继承UDF,然后添加一个方法,ecaluate,这个方法的参数和返回值类型和函数的输入输出一致// 2、把项目打包成jar,然后放到hive的classpath下,或者add jar// 3、在hive里面新建一个funcation,然后指定到我们新建的类型 create function MyDateParser as'hadoop...原创 2016-10-24 17:47:32 · 658 阅读 · 0 评论 -
解决启动MySql提示:MySQL server PID file could not be found!
重启mysql时提示:MySQL server PID file could not be found!解决方法:1.ps aux|grep mysqld |grep -v grep 查看是否有mysqld进程被卡死,kill掉,然后重启mysqld。kill -9 +进程号2.mysql在启动时没有指定配置文件时会使用/etc/my.cnf配置文件,请打开这原创 2016-10-16 10:48:52 · 5935 阅读 · 0 评论 -
Centos 6.5 Apache Hive 0.9.0 安装
安装前提:1、已经安装了mysql数据库(并为hive创建一个数据库) 2、hadoop集群可以正常启动安装步骤:1、下载tar包,并上传到服务器上面2、tar -zxvf hive-0.9.0.tar.gz /usr/tools/hive2、cd /usr/tools/hive/apache-hive-0.9.0/conf(即hive解压目原创 2016-10-16 14:00:32 · 358 阅读 · 0 评论 -
Hadoop2.6.4 集群搭建
1.配置服务器1个主节点:master(192.168.17.130),2个(从)子节点,(根据个人情况,设定) node1(192.168.17.131),node2(192.168.17.132)配置主节点名(192.168.17.130)vi /etc/sysconfig/network添加内容:NETWORKING=yes...原创 2016-09-25 17:00:24 · 432 阅读 · 0 评论 -
Hive 的内置数据类型
Hive 的内置数据类型转载 2016-10-17 22:54:55 · 302 阅读 · 0 评论 -
Hive和HBase整合
hive hbase 整合原创 2016-11-09 17:44:44 · 4750 阅读 · 1 评论 -
apache-hive-2.0.0安装
安装hive安装在hadoop的namenode上,拷贝安装文件到linux中/usr/tools/apache-hive-2.0.0-bin.tar.gz解压:tar –zxvf apache-hive-2.0.0-bin.tar.gz添加到环境变量vi /etc/profile编辑exportHIVE_HOME=/usr/tools/apache-hive-2.0....原创 2016-10-19 16:35:43 · 1390 阅读 · 0 评论 -
mapreduce的二次排序 SecondarySort(数值型)
mapreduce的二次排序 SecondarySort关于二次排序主要涉及到这么几个东西:在0.20.0以前使用的是setPartitionerClasssetOutputkeyComparatorClasssetOutputValueGroupingComparator在0.20.0以后使用是job.setPartitionerClass(Partition...原创 2016-10-11 08:57:19 · 356 阅读 · 0 评论