- 博客(76)
- 收藏
- 关注
原创 Spark RDD算子【三】combineByKey
createCombiner: combineByKey() 会遍历分区中的所有元素,因此每个元素的键要么还没有遇到过,要么就 和之前的某个元素的键相同。如果这是一个新的元素, combineByKey() 会使用一个叫作 createCombiner() 的函数来创建 那个键对应的累加器的初始值(有时候能起到类型转换的功能)mergeValue: 如果这是一个在处理当前分区之前已经遇到的键, 它会使用 mergeValue() 方法将该键的累加器对应的当前值与这个新的值进行合并mergeCombi
2017-08-23 09:12:36 379
原创 python2.7.14安装
1.下载python2.7.14https://www.python.org/downloads/release/python-2714/根据自己电脑配置进行选择,我的是win7 64位,所以我选择的是上述截图中红圈圈中的版本,点击左侧文件名会自动下载。 注意:安装程序下载之后不能放到中文路径下双击安装,必须放到英文路径下才可以。 2.双
2018-01-24 17:27:46 4875
原创 hive内部表和外部表区别
首先我们虚拟理解hive有二个系统,hdfs和hive下的操作查找了啥的,内部表:删除数据时候 (1)hadoop fs - ls /user/hive/warehouse/table ....是查不到的 ,说明了内部表删除的时候把数据也删除了 (2)hive> hive 查询你的表时候,也是查不到的说明了 内部表删除的时候也把元数据删除了外部表:删除数据的时候(1)Had
2018-01-24 16:29:16 568
原创 hadoop-2.6.5-centos-6.7集群的安装
一下都是在hadoop用户下操作的1.下载hadoop-2.6.5-centos-6.7.tar上传到Hadoop01软件安装包放在soft下 安装在Apps下2.修改Hadoop的配置文件2.1修改vi hadoop-env.sh 把他改为:export JAVA_HOME=/usr/local/jdk1.8.0_732.2修改vi core-sit
2018-01-22 10:45:02 463
原创 java多线程的两种方式
创建线程的第一种方法:class A extends Thread{ public void run(){ while(true){ System.out.println("AAAAAA"); } }}public class ThreadCreate1{ public static void main(String[] args) { A aa=new A()
2017-09-05 09:04:10 298
原创 Spark Streaming整合kafak
package day05.dimport org.apache.spark.{HashPartitioner, SparkConf}import org.apache.spark.storage.StorageLevelimport org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.spark.streaming.
2017-08-29 09:49:45 377
原创 kafka安装部署
以下都是Hadoop01下操作前提必须安装zookeeper1.上传解压 kafka_2.10-0.10.2.1.tgz tar -zxvf kafka_2.10-0.10.2.1.tgz -C apps/2.修改配置文件cd /home/hadoop/apps/kafka_2.10-0.10.2.1/configvi server.properti
2017-08-28 23:00:12 871
原创 kafka基础知识
1、kafka是什么类JMS消息队列,结合JMS中的两种模式,可以有多个消费者主动拉取数据,在JMS中只有点对点模式才有消费者主动拉取数据。kafka是一个生产-消费模型。Producer:生产者,只负责数据生产,生产者的代码可以集成到任务系统中。 数据的分发策略由producer决定,默认是defaultPartition Utils.abs(key.hashCode) %
2017-08-28 20:35:39 371
原创 Spark Streaming基础学习【二】数值累加
package day05.dimport org.apache.spark.{HashPartitioner, SparkConf, SparkContext}import org.apache.spark.streaming.{Seconds, StreamingContext}object StateFulWordCount { //分好组的数据 val update
2017-08-28 18:33:40 1117
原创 spark 命令行启动
1.start-dfs.sh 2./home/hadoop/apps/spark-1.6.1-bin-hadoop2.6/sbin/start-all.sh 3./home/hadoop/apps/spark-1.6.1-bin-hadoop2.6/bin/spark-shell --master spark://hadoop01:7077 --executor-memory 1g
2017-08-27 15:01:10 1829
原创 Spark stages和依赖的划分
1.1. RDD的依赖关系RDD和它依赖的父RDD(s)的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency)。1.1.1. 窄依赖窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用总结:窄依赖我们形象的比喻为独生子女 即可以是一对一多对一1.1.2. 宽依赖
2017-08-27 12:43:25 466
原创 Spark cache和checkpoint
本文阐述了Spark中几种数据持久化方法Cache/Persist/Checkpoint的用法以及区别和联系,对于计算链条过长或者数据量较大的Spark任务有指导意义。原文来自:https://github.com/JerryLead/SparkInternals/blob/master/markdown/6-CacheAndCheckpoint.md 作为区
2017-08-26 20:23:49 1127
原创 Spark WordCount
1.例子import org.apache.spark.{SparkConf, SparkContext}object WordCount { def main(args: Array[String]) { //非常重要,是通向Spark集群的入口 val conf = new SparkConf().setAppName("WC") val sc = new
2017-08-26 09:13:55 296
原创 数据结构与算法8大排序
先来看看8种排序之间的关系:1, 直接插入排序 (1)基本思想:在要排序的一组数中,假设前面(n-1) [n>=2] 个数已经是排好顺序的,现在要把第n个数插到前面的有序数中,使得这n个数也是排好顺序的。如此反复循环,直到全部排好顺序。(2)实例(3)用java实现public class insertSort { public s
2017-08-25 18:23:35 250
原创 Spark 操作数据库API
import java.sql.{Connection, Date, DriverManager, PreparedStatement}import org.apache.spark.{SparkConf, SparkContext}object IPLocation { val data2MySQL = (iterator: Iterator[(String, Int)]) =>
2017-08-25 17:10:43 340
原创 数据结构与算法之二分查找
二分查找的前提是有序:public class test { public static void main(String[] args) { int []arr=new int[] {0,1,2,3,4,5,6,7,8,9}; int index=binarySearch(arr,8); System.out.println(index); } public sta
2017-08-25 15:16:16 205
原创 Spark Partitioner自定义分区
package day02import java.net.URLimport org.apache.spark.{HashPartitioner, Partitioner, SparkConf, SparkContext}import scala.collection.mutableobject UserD_Partitioner { def main(args: Arr
2017-08-24 21:51:45 785
原创 Spark 本地模式
本地模式极大简化了我们的测试步骤其实很简单,如下:package wordcountimport org.apache.spark.{SparkConf, SparkContext}object ForeachDemo { def main(args: Array[String]): Unit = { /*local[2]表示启动本地二个进程,local一个进程*/
2017-08-23 23:12:00 1348
原创 Spark RDD算子【二】coalesce 和 repartition
Spark RDD算子【二】coalesce 和 repartition
2017-08-23 19:54:39 536
原创 Hbase为什么会出现
磁盘利用率不高内存利用率也不高Hbase:分布式,面向列,非关系型解决了:磁盘利用率不高内存利用率也不高适用场景:海量数据,稀疏数据
2017-08-23 15:31:29 454
原创 hive面试之【自连接,行转列,列转行】
hive面试之【自连接,行转列,列转行】1.hive自连接现有这么一批数据,现要求出:每个用户截止到每月为止的最大单月访问次数和累计到该月的总访问次数三个字段的意思:用户名,月份,访问次数A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,
2017-08-23 12:48:57 4393
原创 MapReduce的Shuffle和Sort阶段详解
本文来自:http://blog.csdn.net/DianaCody/article/details/39502917一、MapReduce 总体架构 整体的Shuffle过程包含以下几个部分:Map端Shuffle、Sort阶段、Reduce端Shuffle。即是说:Shuffle 过程横跨 map 和 reduce 两端,中间包含 sort 阶段,就是数据从 m
2017-08-23 09:58:31 3608
原创 学习网站
1电子人社区http://forum.dzrplus.com/forum.php?mod=forumdisplay&fid=58 2.大数据田地http://lxw1234.com/3.过往记忆专注大数据技术https://www.iteblog.com/4.abouthttp://www.aboutyun.com/forum.php5.CSDN知识库htt
2017-08-22 21:53:52 249
原创 Scala入门学习之 【Java线程池】
import java.util.concurrent.{Callable, Executor, Executors, Future}object ThreadDemo { def main(args: Array[String]) { val pool = Executors.newFixedThreadPool(5) for (i <- 1 to 10) {
2017-08-21 08:37:51 529
原创 大牛博客
摘要: 在这里,非常感谢下面的著名大牛们,一路的帮助和学习,给予了我很大的动力! 有了Hadoop,再次有了Spark,一次又一次,一晚又一晚的努力相伴!偶像:http://www.cnblogs.com/xing901022/p/6195422.html1.http://www.cnblogs.com/zlslch/p/5723857.html
2017-08-20 20:27:26 390
原创 Scala入门学习之【Actor】
Scala中的Actor能够实现并行编程的强大功能,它是基于事件模型的并发机制,Scala是运用消息(message)的发送、接收来实现多线程的。使用Scala能够更容易地实现多线程应用的开发。
2017-08-20 15:41:09 227
原创 Scala入门学习之【类,对象,继承】
1.类的定义1.1类的定义class Person { //用val修饰的变量是只读属性,有getter但没有setter //(相当与Java中用final修饰的变量) val id = "9527" //用var修饰的变量既有getter又有setter var age: Int = 18 //类私有字段,只能在类的内部使用
2017-08-19 22:17:37 224
原创 Scala函数式编程(六)——闭包
Scala函数式编程(六)——闭包闭包是由函数和运行时的数据决定的,闭包也因此被称为Lambda函数。事实上,闭包可以理解为函数和上下文
2017-08-19 14:00:31 347
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人