- 博客(11)
- 资源 (9)
- 收藏
- 关注
原创 Hive vs HBase (配合使用才是最佳方案)
前言Hive是什么数据仓库,用来分析HDFS数据Hive的作用用SQL访问HDFS数据HBase是什么NoSQL数据库HBase作用随机访问HDFS数据
2019-09-27 10:36:22 3197
原创 集群提交HBase代码报错:Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.hbase.HBaseConfiguratio
原因分析HBase官网 已经告诉我们原因以及解决方法了:原因:默认情况下,部署到MapReduce群集的MapReduce作业无法访问$ HBASE_CONF_DIR下的HBase配置或HBase类。解决方法:要为MapReduce作业提供所需的访问权限,可以将hbase-site.xml_添加到_ $ HADOOP_HOME / conf并将HBase jar添加到$ HADOOP_H...
2019-09-26 17:23:46 3131
原创 Mysql删除重复数据
数据准备说明:张三和李四有两条数据重复了,赵六同学不在这个班了删除赵六DELETE FROM exam WHERE id = '4';结果:注意事项删除表的内容而不是表DELETE 语句是从表中删除行,甚至是删除表中所有行。但DELETE不删除表本身更快的删除如果想从表中删除所有行,不要使用 DELETE 。可使用 TRUNCATE TABLE 语句,它完成相同的工...
2019-09-25 11:21:12 234
原创 算法分析
前言算法分析主要包含时间代价和空间代价两方面。这部分内容个人认为是相当重要的,在面试环节经常会问到一个算法的时间复杂度,因此需要熟练掌握。时间代价分析算法的时间代价是指算法执行时所花费的CPU时间量,它是算法中涉及的存、取、转移、加、减等各种基本运算的执行时间之和,与参加运算的数据量有关,很难事先计算得到。算法的时间效率是指算法的执行时间随问题规模的增长而增长的趋势,通常采用时间复杂度(...
2019-09-20 18:29:09 301
原创 算法简介
算法定义曾获图灵奖的著名计算科学家D.knuth对算法做过一个为学术界广泛接受的描述性定义。一个算法(Algorithm)是一个有穷规则的集合,其规则确定一个解决某一特定类型问题的操作序列。算法的规则必须满足以下5个特性:① 有穷性:对于任意一组合法的输入值,算法在执行有穷步骤之后一定能结束。即算法的操作步骤为有限个,且每步都能在有限时间内完成。② 确定性:对于每种情况下所应执行的...
2019-09-20 17:00:03 1986
原创 数据结构基本概念
为什么要学数据结构直接引用瑞士Niklaus Wirth教授的一句经典名言:数据结构+算法=程序设计两个字回答:效率程序员在软件(程序)设计考虑的首要问题就是数据的表示、组织和处理方法,因为这直接关系到软件的工程化程度和软件的运行效率。而我们学习数据结构的目的也正是要掌握处理数据和编写高效率软件的基本方法。什么是数据结构在了解数据结构之前,先来了解几个基础概念:数据数据...
2019-09-20 16:41:21 1111
原创 两个正数相乘为什么结果是负数
前言说来实在惭愧,用spark处理hive表中的数据时,出现了两个正数相乘最后结果显示为负数后我的第一反应竟然有点懵逼,充分说明了自己在使用数据时,对Hive表中的字段类型没有进行充分的了解,当时,第二反应才想起是数据类型导致的数据超出范围了,这个还得归结在当时创建Hive表的时候,没有充分对表中每个字段要存储的数据类型进行充分调查Java基本数据类型及范围分类数据类型字节取值...
2019-09-19 14:16:04 6546
原创 SparkSql 数据类型转换
前言数据类型转换这个在任何语言框架中都会涉及到,看起来非常简单,不过要把所有的数据类型都掌握还是需要一定的时间历练的SparkSql数据类型数字类型ByteType:代表一个字节的整数。范围是-128到127ShortType:代表两个字节的整数。范围是-32768到32767IntegerType:代表4个字节的整数。范围是-2147483648到2147483647LongTy...
2019-09-18 11:59:18 14444
原创 第一章高等数学基础
函数函数的定义量和量之间的关系如:公式其中x是自变量,y是因变量函数在 处取得的函数值符号只是一种表示,也可以:几种函数分段函数反函数显函数与隐函数几种特性奇偶性周期性单调性极限数列按照一定次数排列的一列数:对于数列 {Un}如果当n无限增大时,其通项无限接近于一个常数A,则称该数列以A为极限或称数列收敛于A...
2019-09-16 17:23:25 295
原创 Spark 读写 Es
前言有个新需求说来比较简单,就是spark读取hive中的数据,处理完后入es,这里就是简单整理一下流程流程伪代码object Credit_User_Model_To_Es { def main(args: Array[String]): Unit = { val spark = SparkSession .builder() .appName(nam...
2019-09-12 11:47:36 1654 6
原创 spark-shell如何粘贴换行代码
前言平时经常性的有一些临时统计数据需求,用hive虽然很方便,但是等待时间有点长,spark-shell成为了我常用的一种方式,不过,一般我都是在IDEA把代码写好,然后复制到spark-shell上面,这个时候就会出现如下问题:比如我复制如下代码(有换行):sql(sqlText = "select statis_month,count(*) from ods.ods_app_score_...
2019-09-03 14:28:10 2492 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人