- 博客(62)
- 收藏
- 关注
原创 【Hive】:java.lang.RuntimeException: Error creating a batch
Hive运行时报如下错误:Error: java.lang.RuntimeException: Error creating a batch at org.apache.hadoop.hive.ql.io.orc.VectorizedOrcInputFormat$VectorizedOrcRecordReader.createValue(VectorizedOrcInput...
2019-07-01 10:51:01 1030
原创 Linux CentOS 6将mysql 5.1.73 升级到 mysql 5.7.25
参考:https://blog.csdn.net/u010199866/article/details/80997485先下载mysql 5.7.25wget https://cdn.mysql.com//Downloads/MySQL-5.7/mysql-5.7.25-1.el6.x86_64.rpm-bundle.tar1.将数据库中的数据进行备份2.停掉mysql服务...
2019-03-20 15:58:02 918 2
原创 sql语句的优化(mysql)
在做数据的过程中,我们会遇到很多很多写sql的情况,当数据量级很大的情况下,怎样提高sql的执行效率,怎样优化已经写好的sql。当你做的时间久了你自然会知道,但是刚开始的时候,可能了解一些技巧,更容易得心应手。这里只从sql的执行顺序来考虑,不去探讨sql的底层机制。sql语句的优化1.首先要知道sql语句的执行顺序(from、join、on、where、group by 、avg(sum...
2019-03-15 13:44:56 232
原创 Sqoop将SQLServer数据导入Hive表中
这里我使用的的CDH5.15.0对应的sqoop版本1.4.6java使用的是jdk1.8正常的安装配置完sqoop之后,并不能通过sqoop将SQLServer数据导入到Hive或HDFS中,还需要三个jar包。java-json.jar(http://www.java2s.com/Code/JarDownload/java-json/)sqljdbc42.jar(下载地址:ht...
2018-11-20 16:40:21 3449
原创 Failed with exception java.io.IOException:java.io.IOException: Malformed ORC file 。。。。。。
当用hive查询数据时报Failed with exception java.io.IOException:java.io.IOException: Malformed ORC file 。。。。。。哪怕是简单的查两条数据这是表的存储格式导致的用ORC格式,需先将数据导入textfile格式的临时表...
2018-11-20 14:09:15 5789 2
原创 Kettle环境搭建及使用(数据迁移)
Kettle的功能非常强大,是一款免费开源的ETL工具。这里主要讲将Excel文件数据导入到数据库中。Kettle下载下载地址:https://community.hitachivantara.com/docs/DOC-1009855进入以上网址,一直下滑到Download目前最新版本是7.1,直接点击就能下载,老版本需要选择,我下载的是7.1版本。安装Kettle的安装非...
2018-10-10 14:24:30 2921
转载 MySql错误代码大全
B.1.服务器错误代码和消息服务器错误信息来自下述源文件:·错误消息信息列在share/errmsg.txt文件中。“%d”和“%s”分别代表编号和字符串,显示时,它们将被消息值取代。·错误值列在share/errmsg.txt文件中,用于生成include/mysqld_error.h和include/mysqld_ername.hMySQL源...
2018-10-10 11:18:28 632
转载 数据仓库建设中的数据建模方法
https://www.ibm.com/developerworks/cn/data/library/techarticles/dm-0803zhousb/
2018-08-25 12:08:45 345
原创 位运算符(&,|,>>……)及二进制下负数的表示
int型是4字节32位(Java中)位运算符 : &,|,~,^,<<,>>,>>>"&" 按位与,计算时将 十进制 转为 二进制 再进行计算,同位置为1,则结果为1,其余情况皆为03: 00000000 00000000 00000000 000000116: 00000000...
2018-07-24 13:02:43 1460
转载 图文:HBase工作原理详解
HBase架构组件 从物理结构上讲,HBase由三种类型的服务器构成主从式架构。Region Servers为数据的读取和写入提供服务。当访问数据时,客户端直接和Region Servers通信。Region的分配,DDL (create, delete tables)操作有HBase Master进程处理。Zookeeper是HDFS的一部分,维护着一个活动的集群。 Hadoop...
2018-07-20 12:01:13 3156
原创 Scala学习(6)——集合之高阶函数
//可以使用Range,to,until创建list集合 val list: List[Int] = Range(1,10).toList println(list.mkString("\t")) /** * final def map[B]( f: (A) ⇒ B): List[B] * map():f:(A) => B * ...
2018-07-16 13:01:16 249
原创 代码详解:Scala学习(5)——集合之List(1)
//------------------不可变集合:List------------------- //创建一个list val list: List[Int] = List(1,2,3,4,5,6) //list由head和tail组成 //list = head(element)+ tail(elements), // 除了头部以外的全部元素都...
2018-07-15 19:56:40 475
原创 Scala学习(4)——集合之Array
//--------------------不可变数组:Array---------------- //将指定的值创建为数组 val arr: Array[Int] = Array(1,2,3,4,5,6,7) //获取数组中的元素,使用下标获取 println(s"first element:${arr(0)}") //获取数组长度 prin...
2018-07-15 19:53:51 213
原创 Scala学习(3)——定义函数和函数的使用
/** * 判断x是否大于y * @param x * @param y * @return x>y返回true,否则返回false */ def max(x:Int,y:Int):Boolean = { if (x > y) true else false } /** * 找出两个...
2018-07-13 22:19:28 748
转载 Scala中“_”代表什么
1、作为“通配符”,类似Java中的*。如import scala.math._2、:_*作为一个整体,告诉编译器你希望将某个参数当作参数序列处理!例如val s = sum(1 to 5:_*)就是将1 to 5当作参数序列处理。3、指代一个集合中的每个元素。例如我们要在一个Array a中筛出偶数,并乘以2,可以用以下办法:a.filter(_%2==0).map(2*_)。又如要对缓冲数组A...
2018-07-13 22:00:18 18103 1
原创 Scala学习(2)——循环中的break怎么用
//定义数组 val arr = Array(1,2,3,4,5,6,7,8) //遍历数组 var index = 0 //Scala中break和Java中的break区别很大 //Scala的break需要new Breaks给一个变量 val loop = new Breaks() //将循环放入breakable...
2018-07-13 21:29:38 491
原创 Scala学习(1)——for循环
//to 前后都包含 //until和range只包含前,不包含后 //循环表达式 println("--------------循环表达式-------------") val arr = 1 to 9 println(s"to表达式:${arr.toString()}") val arr1 = 1 until 9 println...
2018-07-13 21:11:43 848
原创 String、StringBuilder和StringBuffer的区别(代码)
StringBuffer是线程安全的,线程安全会加同步锁,所以StringBuffer速度慢StringBuilder是线程不安全的,故速度快因此速度上:StringBuilder>StringBuffer>StringString速度慢的原因:String是字符串常量,StringBuilder和StringBuffer均是字符串变量 a. String s...
2018-07-12 17:51:30 620
原创 ClassLoader、Class类
class:Class类可以获得一个对象所对应的类中的所有信息,如属性,方法,构造器,注解,其父类,实现的接口等。Class类的构造器是一个私有的,Class类的实例不能通过new来创建一个类对应一个Class类的实例Java语言系统自带有三个类加载器: Bootstrap ClassLoader(启动类加载器) 最顶层的加载类,主要加载核心类库,%JRE_HOME%\lib下的rt.jar、re...
2018-07-07 19:18:31 393
原创 MVC、MVP、MVVM的区别
MVC、MVP、MVVM这些模式是为了解决开发过程中的实际问题而提出来的,目前作为主流的几种架构模式而被广泛使用。一、MVC(Model-View-Controller)MVC是比较直观的架构模式,用户操作->View(负责接收用户的输入操作)->Controller(业务逻辑处理)->Model(数据持久化)->View(将结果反馈给View)。MVC使用非常广泛,比如J...
2018-07-07 18:50:06 236
原创 列举网站分析的几大模块?每个模块常见的指标?每个指标字段含义,怎么得到,怎么分析?
统计的指标: PV(浏览次数): 即通常说的PV(PageView)值,用户每打开1个网站页面,记录1个PV。用户多次打开同一页面PV累计多次。 UV(独立访客): 1天(00:00-24:00)之内,访问网站的不重复用户数(以浏览器cookie为依据),一天内同一访客多次访问网站只被计算1次。 IP: 1天(00:00-24:00)之内,访问网站的不重复IP数。一天内相同I...
2018-07-05 20:07:06 1174
原创 什么是nosql
NoSQL不仅仅是No SQL,还是Not only SQL CAP原则又称CAP定理,指的是在一个分布式系统中,Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可得兼。 分类 Examples举例 典型应用场景 数据模型 优点 缺点 键值(key-value) ...
2018-07-03 19:41:47 19045
原创 MapReduce的优化(MapShuffle的2个阶段、3个功能、2大优化)
MapReduce的shuffle 2个阶段: map端(phase)的shuffle reduce端(phase)的shuffle3个功能: 分区 – 决定mapTask的输出的数据 给 那个 reduce task处理 排序 – 至少经过3次排序 分组 – 将相同key的value放入一个集合中2大优化 map phas...
2018-07-02 10:59:11 555
原创 CentOS 6.x 用yum安装mysql
查看安装:yum list mysql* 安装:sudo yum -y install mysql-server 设置免密登录:切到/etc下,在my.cnf最后追加skip-grant-tables sudo echo “skip-grant-tables” >> /etc/my.cnf 启动mysql服务:sudo service mysqld start 免密码登录:m...
2018-06-23 09:10:48 179
原创 代码:MapReduce程序模板
MapReduce:public class MRDriver extends Configured implements Tool { @Override public int run(String[] args) throws Exception { //1.创建job Job job = Job.getInstance(this.ge...
2018-06-22 19:15:16 249
原创 shuffle的工作原理
shuffle实现的功能分区 决定当前key交给那个reducer进行处理 相同的key必须在一个reduce task中 默认:按照key的hashCode值对reduce的个数进行取余 如果是自定义分区,默认是对key进行分区,但是我们也可以根据value进行分区分组 将相同的key的value进行合并,key相同的话,会分到同一组 在m...
2018-06-15 20:25:24 1607 1
原创 工具类Collection,Set的实现类HashSet和TreeSet,List的实现类ArrayList和LinkedList
Collection: 单例集合的根接口 List:如果是实现了List接口的集合类,具备的特点:有序,重复。 ArrayList:底层是使用了Object数组实现的,特点:查询快,增删慢 LinkedList:底层是使用了链表数据结构实现的,特点:查询慢,增删快Vector:实现与AyyayList是一致的,相当于ArrayList的老版本 Set:如果是实现了Set...
2018-06-14 20:11:40 452
原创 泛型
泛型:泛型是JDK1.5出现的新特性。泛型的好处: 1:将运行时出现的问题提前至了编译时 2:避免了无谓强制类型转换 泛型是JDK1.5使用的新特性。泛型在集合中的常见应用:ArrayList<String> list = new ArrayList<String>(); true 推荐使用ArrayList&l...
2018-06-14 20:03:25 205
原创 Linux面试题
1.简述Linux文件系统通过i节点把文件的逻辑结构和物理结构转换的工作过程。 参考答案: Linux通过i节点表将文件的逻辑结构和物理结构进行转换。 i节点是一个64字节长的表,表中包含了文件的相关信息,其中有文件的大小、文件所有者、文件的存取许可方式以及文件的类型等重要信息。在i节点表中最重要的内容是磁盘地址表。在磁盘地址表中有13个块号,文件将以块号在磁盘地址表中出现的顺序依...
2018-06-14 19:55:50 347
原创 MapReduce程序执行过程
Hadoop hive spark hive spark HBASE input -》默认从HDFS中读取数据 FileInputFormat -》将每一行转成keyvalue -》输出: <行偏移量,行内容> key value 0 Hadoop hive ...
2018-06-14 19:27:32 500
原创 图文:以MapReduce编程五步走为基础,说MapReduce工作原理
在之前的Hadoop是什么中已经说过MapReduce采用了分而治之的思想,MapReduce主要分为两部分,一部分是Map——分,一部分是Reduce——合MapReduce全过程的数据都是以键值对的形式存在的首先,我们假设我们有一个文件,文件中存了以下内容 hive spark hive hbase hadoop hive spark sqoop ...
2018-06-13 21:27:33 3416 2
原创 Hadoop安装配置之伪分布式安装
Hadoop伪分布式安装版本选择2.7.X,我选择的是2.7.3安装过程安装前准备 (1)上传解压 (2)查看目录结构(删除以下文件) bin/*.cmd sbin/*.cmd share/doc (3)修改3个模块的环境变量,修改JAVA_HOME的值为jdk的安装路径 hadoop-env.sh(23行) yarn-env.sh(26...
2018-06-12 14:28:50 308 5
原创 运算符(=还是==怎样区分)
运算符:(1)算术运算符+、-、*、/、%、++、--除法有两种:一般除法和整除,如果除数和被除数都为整型,则执行的是整除,否则执行一般除法。求余可用于判断奇偶、判别因子、控制数据的周期性变化 关系运算符>、<、>=、<=、==、!=逻辑运算符&&、||、!赋值运算符= 将数值存入内存单元赋值运算左边一定是变量而不能是其它任何东西(why)特别注意此处有坑!...
2018-06-11 14:36:43 336
原创 IDEA怎样创建一个maven项目
用idea创建一个maven项目,新建项目,选择maven 下一步填入GroupId和ArtifactId,下一步 SNAPSHOT:快照版本,非正式版本 release:正式发布版本 添加依赖方式 打开maven仓库(http://mvnrepository.com),搜索需要的框架或jar包 copy到<depend...
2018-06-10 17:41:36 189
原创 常用的maven命令
maven常用命令 mvn -version:查看版本信息 mvn clean:清除编译的文件,删除target目录 mvn compile:编译主目录文件 mvn package:打包 java ->jar java web ->war mvn install:将项目发布到本地仓库中 jar mvn ...
2018-06-10 16:06:58 125
原创 maven的安装
maven的安装 (1)下载,地址:https://archive.apache.org/dist/maven/maven-3 , 根据自己需要的版本下载binaries/下的,source/下的是源码,binaries下的是编译过的。若是window系统下载后缀为.zip的,Linux系统下载后缀为.tar.gz的 下载完成,解压到自己的安装目录(目录最好无中文...
2018-06-10 16:04:15 175
原创 什么是Hadoop
大数据框架按功能来划分海量数据存储: HDFS、Hive(本质存储数据还是HDFS)、Hbase、ES(ElasticSearch)海量数据分析 MapReduce、Spark、SQL最原始的Hadoop框架数据存储:HDFS(Hadoop Distributed File System)数据分析:MapReduceHadoop的起源Google的三篇论文 虽然Google...
2018-06-10 15:15:47 1856
转载 转:Google 大数据的三篇论文
Google File System,Hadoop的HDFS Google Bigtable,Hadoop的HDFS Google-MapReduce,Hadoop的MapReduceHadoop 1.0以前只有HDFS和MapReduce两个模块,1.0以后才增加了Common这个模块,2.0之后增加了Yarn这个模块...
2018-06-10 13:59:12 2046
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人