- 博客(8)
- 收藏
- 关注
转载 Hive优化
Hive是一种底层封装了Hadoop的数据仓库处理工具,使用类SQL的HiveQL语言实现数据查询分析。Hive的数据存储在Hadoop兼容的文件系统(例如HDFS、Amazon S3)中,HiveQL查询会转化为MapReduce程序在Hadoop集群上执行。在优化时,把Hive SQL当作MapReduce程序来读,会有意想不到的惊喜。理解Hadoop的核心能力(partitio...
2018-09-27 11:04:00 92
转载 RDD
RDD:弹性分布式数据集,是spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。五大特性: —分区列表,RDD中的数据都存在一个分区列表里面 —作用在每一个分区中的函数 —RDD依赖于其他多个RDD —Partitioner针对KV类型的RDD —数据本地性,数据位置最优转载于:https://www.cnblog...
2018-09-16 13:20:00 104
转载 从Hadoop MapReduce到Spark
回顾MapReduce的计算过程Spark对比MapReduceSpark是借鉴了MapReduce的思想并在其基础上发展起来的,继承了其分布式计算的优点并改进其缺陷,但两者也有不少的差异如下:1.spark更快,spark把运行的之间数据存放在内存,迭代计算效率高;mapreduce的之间结果需要落地,保存到磁盘,会产生大量IO操作,影响性能。2.spark容错性高...
2018-09-16 09:50:00 175
转载 Spark on yarn模式
1.配置安装Hadoop:需要安装HDFS模块和YARN模块,spark运行时要把jar包放到HDFS上。安装Spark:不需要启动Spark集群,在client节点配置中spark-env.sh添加JDK和HADOOP_CONF_DIR目录,Spark程序将作为yarn的客户端用户提交任务。export JAVA_HOME=/usr/local/jdk1.8.0_161...
2018-09-15 22:56:00 124
转载 Hive的web端配置——HWI
1.我们安装Hive的时候的版本为1.2.2,我们要下载1.2.2版本的web端的配置包apache-hive-1.2.2-src.tar.gz,下载地址:http://mirrors.shu.edu.cn/apache/hive/hive-1.2.2/wget http://mirrors.shu.edu.cn/apache/hive/hive-1.2.2/apache-hiv...
2018-09-15 10:00:00 306
转载 Spark环境搭建
val conf = new SparkConf().setAppName("UserCF").setMaster("local[2]")val spark=SparkSession.builder().enableHiveSupport().config(conf).getOrCreate()val df = spark.sql("select user_id, item_...
2018-09-15 08:25:00 116
转载 java身份证号校验
package Test;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Calendar;import java.util.HashMap;import java.util.Map;import java.util.regex.Matcher;import...
2017-11-12 19:24:00 228
转载 java手机号码、电子邮箱校验
/**手机号:目前全国有27种手机号段。移动有16个号段:134、135、136、137、138、139、147、150、151、152、157、158、159、182、187、188。其中147、157、188是3G号段,其他都是2G号段。联通有7种号段:130、131、132、155、156、185、186。其中186是3G(WCDMA)号段,其余为2G号段。电信有4个号段...
2017-11-11 22:55:00 312
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人