aizhen5509-CSDN博客

转载 Hive优化

Hive是一种底层封装了Hadoop的数据仓库处理工具，使用类SQL的HiveQL语言实现数据查询分析。Hive的数据存储在Hadoop兼容的文件系统（例如HDFS、Amazon S3）中，HiveQL查询会转化为MapReduce程序在Hadoop集群上执行。在优化时，把Hive SQL当作MapReduce程序来读，会有意想不到的惊喜。理解Hadoop的核心能力（partitio...

2018-09-27 11:04:00 92

转载 RDD

RDD：弹性分布式数据集，是spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。五大特性：　　—分区列表，RDD中的数据都存在一个分区列表里面　　—作用在每一个分区中的函数　　—RDD依赖于其他多个RDD　　—Partitioner针对KV类型的RDD　　—数据本地性，数据位置最优转载于:https://www.cnblog...

2018-09-16 13:20:00 104

转载从Hadoop MapReduce到Spark

回顾MapReduce的计算过程Spark对比MapReduceSpark是借鉴了MapReduce的思想并在其基础上发展起来的，继承了其分布式计算的优点并改进其缺陷，但两者也有不少的差异如下：1.spark更快，spark把运行的之间数据存放在内存，迭代计算效率高；mapreduce的之间结果需要落地，保存到磁盘，会产生大量IO操作，影响性能。2.spark容错性高...

2018-09-16 09:50:00 175

转载 Spark on yarn模式

1.配置安装Hadoop：需要安装HDFS模块和YARN模块，spark运行时要把jar包放到HDFS上。安装Spark：不需要启动Spark集群，在client节点配置中spark-env.sh添加JDK和HADOOP_CONF_DIR目录，Spark程序将作为yarn的客户端用户提交任务。export JAVA_HOME=/usr/local/jdk1.8.0_161...

2018-09-15 22:56:00 124

转载 Hive的web端配置——HWI

1.我们安装Hive的时候的版本为1.2.2，我们要下载1.2.2版本的web端的配置包apache-hive-1.2.2-src.tar.gz，下载地址：http://mirrors.shu.edu.cn/apache/hive/hive-1.2.2/wget http://mirrors.shu.edu.cn/apache/hive/hive-1.2.2/apache-hiv...

2018-09-15 10:00:00 306

转载 Spark环境搭建

val conf = new SparkConf().setAppName("UserCF").setMaster("local[2]")val spark=SparkSession.builder().enableHiveSupport().config(conf).getOrCreate()val df = spark.sql("select user_id, item_...

2018-09-15 08:25:00 116

转载 java身份证号校验

package Test;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Calendar;import java.util.HashMap;import java.util.Map;import java.util.regex.Matcher;import...

2017-11-12 19:24:00 228

转载 java手机号码、电子邮箱校验

/**手机号:目前全国有27种手机号段。移动有16个号段：134、135、136、137、138、139、147、150、151、152、157、158、159、182、187、188。其中147、157、188是3G号段，其他都是2G号段。联通有7种号段：130、131、132、155、156、185、186。其中186是3G（WCDMA）号段，其余为2G号段。电信有4个号段...

2017-11-11 22:55:00 312

aizhen5509的博客