freefish_yzx-CSDN博客

createCombiner: combineByKey() 会遍历分区中的所有元素，因此每个元素的键要么还没有遇到过，要么就和之前的某个元素的键相同。如果这是一个新的元素， combineByKey() 会使用一个叫作 createCombiner() 的函数来创建那个键对应的累加器的初始值（有时候能起到类型转换的功能）mergeValue: 如果这是一个在处理当前分区之前已经遇到的键，它会使用 mergeValue() 方法将该键的累加器对应的当前值与这个新的值进行合并mergeCombi

2017-08-23 09:12:36 379

原创 python2.7.14安装

1.下载python2.7.14https://www.python.org/downloads/release/python-2714/根据自己电脑配置进行选择，我的是win7 64位，所以我选择的是上述截图中红圈圈中的版本，点击左侧文件名会自动下载。注意：安装程序下载之后不能放到中文路径下双击安装，必须放到英文路径下才可以。 2.双

2018-01-24 17:27:46 4875

原创 hive内部表和外部表区别

首先我们虚拟理解hive有二个系统，hdfs和hive下的操作查找了啥的，内部表：删除数据时候 (1)hadoop fs - ls /user/hive/warehouse/table ....是查不到的，说明了内部表删除的时候把数据也删除了 (2)hive> hive 查询你的表时候，也是查不到的说明了内部表删除的时候也把元数据删除了外部表：删除数据的时候（1）Had

2018-01-24 16:29:16 568

原创 hadoop-2.6.5-centos-6.7集群的安装

一下都是在hadoop用户下操作的1.下载hadoop-2.6.5-centos-6.7.tar上传到Hadoop01软件安装包放在soft下安装在Apps下2.修改Hadoop的配置文件2.1修改vi hadoop-env.sh 把他改为：export JAVA_HOME=/usr/local/jdk1.8.0_732.2修改vi core-sit

2018-01-22 10:45:02 463

原创 HDFS详解

本文暂时参考：HDFS详解过段时间会整理出来

2017-09-14 21:20:23 333

原创 java多线程的两种方式

创建线程的第一种方法：class A extends Thread{ public void run(){ while(true){ System.out.println("AAAAAA"); } }}public class ThreadCreate1{ public static void main(String[] args) { A aa=new A()

2017-09-05 09:04:10 298

原创 hadoop HA集群的搭建

hadoop HA集群搭建详解

2017-08-30 14:50:01 574

原创 Spark Streaming整合kafak

package day05.dimport org.apache.spark.{HashPartitioner, SparkConf}import org.apache.spark.storage.StorageLevelimport org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.spark.streaming.

2017-08-29 09:49:45 377

原创 kafka安装部署

以下都是Hadoop01下操作前提必须安装zookeeper1.上传解压 kafka_2.10-0.10.2.1.tgz tar -zxvf kafka_2.10-0.10.2.1.tgz -C apps/2.修改配置文件cd /home/hadoop/apps/kafka_2.10-0.10.2.1/configvi server.properti

2017-08-28 23:00:12 871

原创 kafka基础知识

1、kafka是什么类JMS消息队列，结合JMS中的两种模式，可以有多个消费者主动拉取数据，在JMS中只有点对点模式才有消费者主动拉取数据。kafka是一个生产-消费模型。Producer：生产者，只负责数据生产，生产者的代码可以集成到任务系统中。数据的分发策略由producer决定，默认是defaultPartition Utils.abs(key.hashCode) %

2017-08-28 20:35:39 371

原创 Spark Streaming基础学习【二】数值累加

package day05.dimport org.apache.spark.{HashPartitioner, SparkConf, SparkContext}import org.apache.spark.streaming.{Seconds, StreamingContext}object StateFulWordCount { //分好组的数据 val update

2017-08-28 18:33:40 1117

原创 Spark Streaming基础学习【一】WordCount

Spark Streaming基础学习【一】WordCount

2017-08-28 14:10:48 1049

原创 Spark SQL基础学习【三】以json的方式存储

我们可以把查询的结果以json方式存储

2017-08-27 20:10:37 731

原创 Spark SQL基础学习【二】以编程方式执行Spark SQL查询

Spark SQL基础学习【二】以编程方式执行Spark SQL查询

2017-08-27 18:55:16 763

原创 Spark SQL 基础学习【一】命令行操作DataFrame

Spark SQL 命令行操作DataFrame

2017-08-27 16:20:26 1166

原创 spark 命令行启动

1.start-dfs.sh 2./home/hadoop/apps/spark-1.6.1-bin-hadoop2.6/sbin/start-all.sh 3./home/hadoop/apps/spark-1.6.1-bin-hadoop2.6/bin/spark-shell --master spark://hadoop01:7077 --executor-memory 1g

2017-08-27 15:01:10 1829

原创 Spark stages和依赖的划分

1.1. RDD的依赖关系RDD和它依赖的父RDD（s）的关系有两种不同的类型，即窄依赖（narrow dependency）和宽依赖（wide dependency）。1.1.1. 窄依赖窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用总结：窄依赖我们形象的比喻为独生子女即可以是一对一多对一1.1.2. 宽依赖

2017-08-27 12:43:25 466

原创 Spark cache和checkpoint

本文阐述了Spark中几种数据持久化方法Cache/Persist/Checkpoint的用法以及区别和联系，对于计算链条过长或者数据量较大的Spark任务有指导意义。原文来自：https://github.com/JerryLead/SparkInternals/blob/master/markdown/6-CacheAndCheckpoint.md 作为区

2017-08-26 20:23:49 1127

原创 Spark WordCount

1.例子import org.apache.spark.{SparkConf, SparkContext}object WordCount { def main(args: Array[String]) { //非常重要，是通向Spark集群的入口 val conf = new SparkConf().setAppName("WC") val sc = new

2017-08-26 09:13:55 296

原创数据结构与算法8大排序

先来看看8种排序之间的关系：1，直接插入排序（1）基本思想：在要排序的一组数中，假设前面(n-1) [n>=2] 个数已经是排好顺序的，现在要把第n个数插到前面的有序数中，使得这n个数也是排好顺序的。如此反复循环，直到全部排好顺序。（2）实例（3）用java实现public class insertSort { public s

2017-08-25 18:23:35 250

原创 Spark 操作数据库API

import java.sql.{Connection, Date, DriverManager, PreparedStatement}import org.apache.spark.{SparkConf, SparkContext}object IPLocation { val data2MySQL = (iterator: Iterator[(String, Int)]) =>

2017-08-25 17:10:43 340

原创数据结构与算法之二分查找

二分查找的前提是有序：public class test { public static void main(String[] args) { int []arr=new int[] {0,1,2,3,4,5,6,7,8,9}; int index=binarySearch(arr,8); System.out.println(index); } public sta

2017-08-25 15:16:16 205

原创 Spark 自定义排序

Spark 自定义排序

2017-08-25 14:04:27 323

原创 Scala入门学习之隐式转换和隐式参数

Scala入门学习之隐式转换和隐式参数

2017-08-25 09:23:04 266

原创 Spark Partitioner自定义分区

package day02import java.net.URLimport org.apache.spark.{HashPartitioner, Partitioner, SparkConf, SparkContext}import scala.collection.mutableobject UserD_Partitioner { def main(args: Arr

2017-08-24 21:51:45 785

原创 Spark 本地模式

本地模式极大简化了我们的测试步骤其实很简单，如下：package wordcountimport org.apache.spark.{SparkConf, SparkContext}object ForeachDemo { def main(args: Array[String]): Unit = { /*local[2]表示启动本地二个进程，local一个进程*/

2017-08-23 23:12:00 1348

原创 Spark RDD算子【二】coalesce 和 repartition

Spark RDD算子【二】coalesce 和 repartition

2017-08-23 19:54:39 536

原创 Hbase为什么会出现

磁盘利用率不高内存利用率也不高Hbase:分布式，面向列，非关系型解决了：磁盘利用率不高内存利用率也不高适用场景：海量数据，稀疏数据

2017-08-23 15:31:29 454

原创 hive面试之【自连接,行转列,列转行】

hive面试之【自连接,行转列,列转行】1.hive自连接现有这么一批数据，现要求出：每个用户截止到每月为止的最大单月访问次数和累计到该月的总访问次数三个字段的意思：用户名，月份，访问次数A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,

2017-08-23 12:48:57 4393

原创 MapReduce的Shuffle和Sort阶段详解

本文来自：http://blog.csdn.net/DianaCody/article/details/39502917一、MapReduce 总体架构整体的Shuffle过程包含以下几个部分：Map端Shuffle、Sort阶段、Reduce端Shuffle。即是说：Shuffle 过程横跨 map 和 reduce 两端，中间包含 sort 阶段，就是数据从 m

2017-08-23 09:58:31 3608

原创学习网站

1电子人社区http://forum.dzrplus.com/forum.php?mod=forumdisplay&fid=58 2.大数据田地http://lxw1234.com/3.过往记忆专注大数据技术https://www.iteblog.com/4.abouthttp://www.aboutyun.com/forum.php5.CSDN知识库htt

2017-08-22 21:53:52 249

原创 Spark【基础篇】Spark2.2.0集群搭建

Spark1.6.1集群搭建

2017-08-21 16:38:45 671

原创 Maven

Intellij IDEA 上Maven的使用

2017-08-21 11:27:43 232

原创 Scala入门学习之【Java线程池】

import java.util.concurrent.{Callable, Executor, Executors, Future}object ThreadDemo { def main(args: Array[String]) { val pool = Executors.newFixedThreadPool(5) for (i <- 1 to 10) {

2017-08-21 08:37:51 529

原创大牛博客

摘要：　　　在这里，非常感谢下面的著名大牛们，一路的帮助和学习，给予了我很大的动力！　　有了Hadoop，再次有了Spark，一次又一次，一晚又一晚的努力相伴！偶像：http://www.cnblogs.com/xing901022/p/6195422.html1.http://www.cnblogs.com/zlslch/p/5723857.html

2017-08-20 20:27:26 390

原创 Scala入门学习之【Actor】

Scala中的Actor能够实现并行编程的强大功能，它是基于事件模型的并发机制，Scala是运用消息（message）的发送、接收来实现多线程的。使用Scala能够更容易地实现多线程应用的开发。

2017-08-20 15:41:09 227

原创 Scala入门学习之【类,对象,继承】

1.类的定义1.1类的定义class Person { //用val修饰的变量是只读属性，有getter但没有setter //（相当与Java中用final修饰的变量） val id = "9527" //用var修饰的变量既有getter又有setter var age: Int = 18 //类私有字段,只能在类的内部使用

2017-08-19 22:17:37 224

原创 Scala函数式编程（六）——闭包

Scala函数式编程（六）——闭包闭包是由函数和运行时的数据决定的，闭包也因此被称为Lambda函数。事实上，闭包可以理解为函数和上下文

2017-08-19 14:00:31 347

原创 sqoop概念和安装部署

sqoop概念和安装部署

2017-08-19 08:43:52 223

空空如也

空空如也