2018年10月_一角残叶

原创 Spark SQL 笔记(2)——Spark 生态圈和 Hadoop 生态圈对比

1 Spark 产生的背景1.1 MapReduce 的局限性代码繁琐只能够支持map 和 reduce 方法；执行效率低；不适合多次迭代、交互式、流式的处理；1.2 框架多样化批处理（离线）：MapReduce,Hive,Pig流式处理（实时）：Storm,JStorm,交互式计算：Impala1.3 Hadoop 生态系统1.4 Spark 生态系统（BDAS）...

2018-10-31 23:44:08 580

原创 Spark SQL 笔记(1)—— Hive

1 大数据入门学习 Hadoop ,Hive 的使用学习 SparkDataFrame 和 DataSet 在 Spark 框架中的核心地位

2018-10-31 22:30:28 368

原创大数据扩展

1 Hadoop 生态圈对比 Spark BDAS2 Hadoop 对比 Spark

2018-10-30 23:03:09 929

原创 Hadoop 分布式集群搭建

1 修改配置文件1.1 hadoop-env.shexport JAVA_HOME=/usr/apps/jdk1.8.0_181-amd641.2 core-site.xml <property> <name>fs.default.name</name> <value>hdfs://node1:8020&lt...

2018-10-30 19:20:39 239

原创分布式处理框架——MapReduce

1 MapReduce 优点海量数据离线处理；易开发，易运行；2 MapReduce 编程模型将作业拆分成 Map 阶段和 Reduce 阶段Map阶段： Map TasksReduce阶段： Reduce Tasks2.1 wordcount 案例2.2 核心概念Split: 交由 MapReduce 作业来处理的数据块，是MapReduce 中最小的计算单元...

2018-10-30 11:13:13 398

原创分布式资源调度框架 ——YARN

1 YARN 产生背景MapReduce1.x 存在的问题：单点故障和节点压力大不易扩展；Hadoop1.x 时，MapReduce -&amp;gt; Master/Slave 架构，1个 JobTracker 带多个

2018-10-29 22:22:30 424

原创 HDFS介绍

1 HDFS 介绍Hadoop Distributed File System运行在普通廉价的机器上2 HDFS 架构一个Master(NameNode) 配多个 slaves(DataNode)一个文件会被拆分成多个 Block,blocksize:128M2.1 NameNode客户端请求响应元数据（文件的名字，副本，Block存放的DataNode地址）管理s...

2018-10-29 16:40:52 417

原创 Hadoop 整体介绍

1 分布式文件系统 HDFSHDFS 是 GFS 的克隆版；HDFS特点：扩展性，容错性，海量数据存储；将文件切分为指定大小的数据块并以多副本的存储在多个机器；数据切分、多副本、容错等操作对用户是透明的；2 分布式资源调度系统 YARNYet Another Resource Negotiator负责整个集群资源的管理和调度YARN 特点：扩展性，容错性，多框架资源统一...

2018-10-29 09:40:31 173

原创 Spark学习笔记（19）—— 游戏日志分析

1 数据0 管理员登录1 首次登录2 上线3 下线1|2016年2月1日,星期一,10:01:08|10.51.4.168|李明克星|法师|男|1|0|0/8000000001|2016年2月1日,星期一,10:01:12|10.117.45.20|风道|道士|男|1|0|0/8000000004|2016年2月1日,星期一,10:01:27|10.51.4.168|李明克星|法...

2018-10-26 17:21:01 928

原创 Spark学习笔记（18）—— Elasticsearch 安装

1 解压[hadoop@node1 ~]$ lltotal 42708drwxrwxr-x. 9 hadoop hadoop 180 Oct 24 21:33 apps-rw-r--r--. 1 hadoop hadoop 27540442 Jun 10 2017 elasticsearch-2.3.1.tar.gzdrwxrwxr-x. 4 hadoop hadoop ...

2018-10-25 23:09:00 418

原创 Spark学习笔记（17）——窗户函数

1 源码package windowimport mystreaming.LoggerLevelsimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Milliseconds, Seconds, StreamingContext}object WindowOpts { def main(args:...

2018-10-25 10:28:38 183

原创 Spark学习笔记（16）——Spark Streaming 整合Kafka

1 启动 zk(zookeeper-3.4.8)三个节点同时操作 zkServer.sh start2 启动 Kafka三个节点同时操作kafka-server-start.sh /home/hadoop/apps/kafka_2.10-0.8.2.1/config/server.properties后台启动方式kafka-server-start.sh /home/hadoop...

2018-10-25 10:07:27 302 1

原创 Spark学习笔记（15）——Spark Streaming 整合 Flume

1 flume 配置文件在 flume-env.sh 里配置 JAVA_HOME1.1 flume-pull.conf# Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# sourcea1.sources.r1.type = spooldira1.sources.r1...

2018-10-24 19:36:48 280

原创 Spark学习笔记（14）——Spark Streaming 数据累加的案例

1

2018-10-24 15:43:32 1768

原创 Spark学习笔记（13）——Spark Streaming 案例

1 Spark Streaming 介绍Spark Streaming类似于Apache Storm，用于流式数据的处理。根据其官方文档介绍，Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多，例如：Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如：map、red...

2018-10-24 11:55:40 436

原创数据结构与算法（2）—— 栈（java）

1 栈的实现1.1 简单数组实现栈package mystack;public class ArrayStack { private int top; //当前栈顶元素的下标 private int[] array; public ArrayStack() { array = new int[10]; top = -1; }...

2018-10-23 22:00:29 162

原创 Spark学习笔记（12）——SparkSQL

1 SparkSQL 介绍Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。所有Spark SQL的应运而生，它是将Spa...

2018-10-23 18:43:38 352

原创 Spark学习笔记（11）—— spark任务提交，调试

1 源码package demoimport org.apache.spark.{SparkConf, SparkContext}object WordCount { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("wc") //非常重要，通向Spark...

2018-10-22 14:23:32 329

原创 Spark学习笔记（10）—— wordcount 执行流程分析

1 启动集群启动 HDFS start-dfs.sh启动 Spark 集群 /home/hadoop/apps/spark-1.6.3-bin-hadoop2.6/sbin/start-all.sh启动 Spark Shell /home/hadoop/apps/spark-1.6.3-bin-hadoop2.6/bin/spark-shell --master spark://no...

2018-10-22 10:37:26 333

原创 Spark学习笔记（9）—— Spark IP位置查询

1 数据源ip.txt1.0.1.0|1.0.3.255|16777472|16778239|亚洲|中国|福建|福州||电信|350100|China|CN|119.306239|26.0753021.0.8.0|1.0.15.255|16779264|16781311|亚洲|中国|广东|广州||电信|440100|China|CN|113.280637|23.1251781.0.32.0...

2018-10-19 17:41:59 866

原创 Spark学习笔记（8）——自定义排序

1 案例1第一种方式package mysortimport org.apache.spark.{SparkConf, SparkContext}object CustomSort { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("CustomSort").setMa...

2018-10-19 16:38:50 243

原创 Spark学习笔记（7）——分区实现

1 测试1package webcountimport java.net.URLimport org.apache.spark.{SparkConf, SparkContext}object UrlCountPartition { def main(args: Array[String]): Unit = { val conf = new SparkConf().setApp...

2018-10-19 11:48:37 255

原创 Spark学习笔记（6）—— 网站访问次数统计

1 数据文件20160321101954 http://java.itcast.cn/java/course/javaeeadvanced.shtml20160321101954 http://java.itcast.cn/java/course/javaee.shtml20160321101954 http://java.itcast.cn/java/course/android.shtm...

2018-10-18 21:05:36 1955

原创 Spark学习笔记（5）—— 计算用户在小区停留时间最长的两个小区

1 数据源1.txt18688888888,20160327082400,16030401EAFB68F1E3CDF819735E1C66,118611132889,20160327082500,16030401EAFB68F1E3CDF819735E1C66,118688888888,20160327170000,16030401EAFB68F1E3CDF819735E1C66,018...

2018-10-18 17:09:01 353

原创 Spark学习笔记（4）—— RDD 高级算子

1 启动集群启动 Spark集群/home/hadoop/apps/spark-1.6.3-bin-hadoop2.6/sbin/start-all.sh启动 Spark Shell/home/hadoop/apps/spark-1.6.3-bin-hadoop2.6/bin/spark-shell --master spark://node1:7077 --total-executo...

2018-10-18 14:59:14 464

原创 Spark学习笔记（3）—— Spark计算模型 RDD

1

2018-10-17 19:51:13 263

原创 Spark学习笔记（3）—— Spark算子

1 Spark算子1.1 分为两类1.1.1 Transformation(转换)Transformation 延迟执行，它会记录元数据信息，当计算任务触发 Action 时才会真正开始计算。1.1.2 Action(动作)1.2 创建RDD的两种方式通过HDFS支持的文件系统创建RDD,RDD里面没有真正要计算的数据，只记录了元数据。通过Scala集合或者数组以并行化的方式创建R...

2018-10-17 16:33:06 591

原创 Spark学习笔记（2）—— Spark 和HDFS版 wordcount

1 启动 HDFS[hadoop@node1 ~]$ start-dfs.shStarting namenodes on [node1]node1: starting namenode, logging to /home/hadoop/apps/hadoop-2.7.6/logs/hadoop-hadoop-namenode-node1.outnode4: starting datanod...

2018-10-16 15:53:00 531

原创 Spark学习笔记（1）—— Spark 介绍，集群安装

1 Spark 介绍2 Spark 集群安装下载地址https://spark.apache.org/downloads.html2.1 源码上传到集群解压2.2 修改配置文件2.2.1 spark-env.sh[hadoop@node1 ~]$ cd /home/hadoop/apps/spark-1.6.3-bin-hadoop2.6/[hadoop@node1 spa...

2018-10-16 12:31:07 343

原创 Scala学习笔记（13）——隐式转换

1 泛型[T &lt;: UpperBound][T &gt;: LowerBound][T &lt;% ViewBound][T : ContextBound][+T][-T]1.1 案例1package cn.tzb.implictclass Pair[T &lt;: Comparable[T]] { def bigger(first: T, second: T) ...

2018-10-16 09:34:16 174

原创 Scala学习笔记（12）—— scala 高级特性

1 高阶函数Scala混合了面向对象和函数式的特性，通常将可以做为参数传递到方法中的表达式叫做函数。在函数式编程语言中，函数是“头等公民”，高阶函数包含：作为值的函数、匿名函数、闭包、柯里化等等。1.1 作为值的函数可以像任何其他数据类型一样被传递和操作的函数，每当你想要给算法传入具体动作时这个特性就会变得非常有用。定义函数时格式：val 变量名 = (输入参数类型和个数) =&gt; 函...

2018-10-15 12:24:58 206

原创 Scala学习笔记（11）—— RPC 通信框架

1 通信业务逻辑定义2个类 Master, Worker。首先启动Master,然后启动WorkerWorker 启动后,在 preStart 方法中与 Master 建立连接，向 Master 发送注册，将 Worker 的信息通过 case class 封装起来发送给 Master.Master 接收 Worker 的注册消息后，将Worker 的信息保存起来。然后向Worker反馈注...

2018-10-14 16:05:37 326

原创 Scala学习笔记（10）—— Akka 实现简单 RPC 框架

1 Akka 介绍目前大多数的分布式架构底层通信都是通过RPC实现的，RPC框架非常多，比如前我们学过的Hadoop项目的RPC通信框架，但是Hadoop在设计之初就是为了运行长达数小时的批量而设计的，在某些极端的情况下，任务提交的延迟很高，所有Hadoop的RPC显得有些笨重。Spark 的RPC是通过Akka类库实现的，Akka用Scala语言开发，基于Actor并发模型实现，Akka具有高...

2018-10-14 10:58:48 310

原创 Scala学习笔记（9）——java多线程

1 java 多线程import java.util.concurrent.ExecutorService;import java.util.concurrent.Executors;public class ThreadPool { public static void main(String[] args) throws InterruptedException { ...

2018-10-13 10:09:29 278

原创 Scala学习笔记（8）—— Actor版 wordcount

1 数据2 源码package wcimport scala.actors.{Actor, Future}import scala.collection.mutableimport scala.collection.mutable.ListBufferimport scala.io.Sourceclass Task extends Actor { override def ...

2018-10-12 22:47:57 248

原创 Scala学习笔记（7）—— Actor 类

1 Scala Actor 介绍Scala中的Actor能够实现并行编程的强大功能，它是基于事件模型的并发机制，Scala是运用消息（message）的发送、接收来实现多线程的。使用Scala能够更容易地实现多线程应用的开发。（注：Scala Actor是scala 2.10.x版本及以前版本的Actor。Scala在2.11.x版本中将Akka加入其中，作为其默认的Actor，老版本的Ac...

2018-10-12 16:38:14 296

原创 Scala学习笔记（6）—— 模式匹配和样例类

Scala有一个十分强大的模式匹配机制，可以应用到很多场合：如switch语句、类型检查等。并且Scala还提供了样例类，对模式匹配进行了优化，可以快速进行匹配1 匹配字符串import scala.util.Randomobject CaseDemo1 extends App { val arr = Array("M", "J", "G") val name = arr(R..

2018-10-12 15:49:57 230

原创 Scala学习笔记（5）—— scala 类、对象、继承、特质

1 类1.1 类的定义

2018-10-12 12:02:39 282

原创 Scala学习笔记（4）—— scala 练习

1 练习1.1 创建一个Listscala> val lst0 = List(1,7,9,8,0,3,5,4,6,2)lst0: List[Int] = List(1, 7, 9, 8, 0, 3, 5, 4, 6, 2)1.2 将lst0中每个元素乘以10后生成一个新的集合scala> val lst1 = lst0.map(_ * 10)lst1: List[Int]...

2018-10-11 21:55:58 1620

Python算法（英文）

mfc编程基础

空空如也