自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

一角残叶的博客

人生如逆旅,我亦是行人

  • 博客(51)
  • 资源 (5)
  • 收藏
  • 关注

原创 Spark SQL 笔记(2)——Spark 生态圈和 Hadoop 生态圈对比

1 Spark 产生的背景1.1 MapReduce 的局限性代码繁琐只能够支持map 和 reduce 方法;执行效率低;不适合多次迭代、交互式、流式的处理;1.2 框架多样化批处理(离线):MapReduce,Hive,Pig流式处理(实时):Storm,JStorm,交互式计算:Impala1.3 Hadoop 生态系统1.4 Spark 生态系统(BDAS)...

2018-10-31 23:44:08 580

原创 Spark SQL 笔记(1)—— Hive

1 大数据入门学习 Hadoop ,Hive 的使用学习 SparkDataFrame 和 DataSet 在 Spark 框架中的核心地位

2018-10-31 22:30:28 368

原创 大数据扩展

1 Hadoop 生态圈对比 Spark BDAS2 Hadoop 对比 Spark

2018-10-30 23:03:09 929

原创 Hadoop 分布式集群搭建

1 修改配置文件1.1 hadoop-env.shexport JAVA_HOME=/usr/apps/jdk1.8.0_181-amd641.2 core-site.xml <property> <name>fs.default.name</name> <value>hdfs://node1:8020&lt...

2018-10-30 19:20:39 239

原创 Hadoop项目练习

1 数据处理

2018-10-30 15:40:20 4241 2

原创 分布式处理框架——MapReduce

1 MapReduce 优点海量数据离线处理;易开发,易运行;2 MapReduce 编程模型将作业拆分成 Map 阶段和 Reduce 阶段Map阶段: Map TasksReduce阶段: Reduce Tasks2.1 wordcount 案例2.2 核心概念Split: 交由 MapReduce 作业来处理的数据块,是MapReduce 中最小的计算单元...

2018-10-30 11:13:13 398

原创 分布式资源调度框架 ——YARN

1 YARN 产生背景MapReduce1.x 存在的问题:单点故障和 节点压力大不易扩展;Hadoop1.x 时,MapReduce -> Master/Slave 架构,1个 JobTracker 带多个

2018-10-29 22:22:30 424

原创 HDFS介绍

1 HDFS 介绍Hadoop Distributed File System运行在普通廉价的机器上2 HDFS 架构一个Master(NameNode) 配 多个 slaves(DataNode)一个文件会被拆分成多个 Block,blocksize:128M2.1 NameNode客户端请求响应元数据(文件的名字,副本,Block存放的DataNode地址)管理s...

2018-10-29 16:40:52 417

原创 Hadoop 整体介绍

1 分布式文件系统 HDFSHDFS 是 GFS 的克隆版;HDFS特点 : 扩展性,容错性,海量数据存储;将文件切分为指定大小的数据块并以多副本的存储在多个机器;数据切分、多副本、容错等操作对用户是透明的;2 分布式资源调度系统 YARNYet Another Resource Negotiator负责整个集群资源的管理和调度YARN 特点: 扩展性,容错性,多框架资源统一...

2018-10-29 09:40:31 173

原创 Spark学习笔记(19)—— 游戏日志分析

1 数据0 管理员登录1 首次登录2 上线3 下线1|2016年2月1日,星期一,10:01:08|10.51.4.168|李明克星|法师|男|1|0|0/8000000001|2016年2月1日,星期一,10:01:12|10.117.45.20|风道|道士|男|1|0|0/8000000004|2016年2月1日,星期一,10:01:27|10.51.4.168|李明克星|法...

2018-10-26 17:21:01 928

原创 Spark学习笔记(18)—— Elasticsearch 安装

1 解压[hadoop@node1 ~]$ lltotal 42708drwxrwxr-x. 9 hadoop hadoop 180 Oct 24 21:33 apps-rw-r--r--. 1 hadoop hadoop 27540442 Jun 10 2017 elasticsearch-2.3.1.tar.gzdrwxrwxr-x. 4 hadoop hadoop ...

2018-10-25 23:09:00 418

原创 Spark学习笔记(17)——窗户函数

1 源码package windowimport mystreaming.LoggerLevelsimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Milliseconds, Seconds, StreamingContext}object WindowOpts { def main(args:...

2018-10-25 10:28:38 183

原创 Spark学习笔记(16)——Spark Streaming 整合Kafka

1 启动 zk(zookeeper-3.4.8)三个节点同时操作 zkServer.sh start2 启动 Kafka三个节点同时操作kafka-server-start.sh /home/hadoop/apps/kafka_2.10-0.8.2.1/config/server.properties后台启动方式kafka-server-start.sh /home/hadoop...

2018-10-25 10:07:27 302 1

原创 Spark学习笔记(15)——Spark Streaming 整合 Flume

1 flume 配置文件在 flume-env.sh 里配置 JAVA_HOME1.1 flume-pull.conf# Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# sourcea1.sources.r1.type = spooldira1.sources.r1...

2018-10-24 19:36:48 280

原创 Spark学习笔记(14)——Spark Streaming 数据累加的案例

1

2018-10-24 15:43:32 1768

原创 Spark学习笔记(13)——Spark Streaming 案例

1 Spark Streaming 介绍Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、red...

2018-10-24 11:55:40 436

原创 数据结构与算法(2)—— 栈(java)

1 栈的实现1.1 简单数组实现栈package mystack;public class ArrayStack { private int top; //当前栈顶元素的下标 private int[] array; public ArrayStack() { array = new int[10]; top = -1; }...

2018-10-23 22:00:29 162

原创 Spark学习笔记(12)——SparkSQL

1 SparkSQL 介绍Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所有Spark SQL的应运而生,它是将Spa...

2018-10-23 18:43:38 352

原创 Spark学习笔记(11)—— spark任务提交,调试

1 源码package demoimport org.apache.spark.{SparkConf, SparkContext}object WordCount { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("wc") //非常重要,通向Spark...

2018-10-22 14:23:32 329

原创 Spark学习笔记(10)—— wordcount 执行流程分析

1 启动集群启动 HDFS start-dfs.sh启动 Spark 集群 /home/hadoop/apps/spark-1.6.3-bin-hadoop2.6/sbin/start-all.sh启动 Spark Shell /home/hadoop/apps/spark-1.6.3-bin-hadoop2.6/bin/spark-shell --master spark://no...

2018-10-22 10:37:26 333

原创 Spark学习笔记(9)—— Spark IP位置查询

1 数据源ip.txt1.0.1.0|1.0.3.255|16777472|16778239|亚洲|中国|福建|福州||电信|350100|China|CN|119.306239|26.0753021.0.8.0|1.0.15.255|16779264|16781311|亚洲|中国|广东|广州||电信|440100|China|CN|113.280637|23.1251781.0.32.0...

2018-10-19 17:41:59 866

原创 Spark学习笔记(8)——自定义排序

1 案例1第一种方式package mysortimport org.apache.spark.{SparkConf, SparkContext}object CustomSort { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("CustomSort").setMa...

2018-10-19 16:38:50 243

原创 Spark学习笔记(7)——分区实现

1 测试1package webcountimport java.net.URLimport org.apache.spark.{SparkConf, SparkContext}object UrlCountPartition { def main(args: Array[String]): Unit = { val conf = new SparkConf().setApp...

2018-10-19 11:48:37 255

原创 Spark学习笔记(6)—— 网站访问次数统计

1 数据文件20160321101954 http://java.itcast.cn/java/course/javaeeadvanced.shtml20160321101954 http://java.itcast.cn/java/course/javaee.shtml20160321101954 http://java.itcast.cn/java/course/android.shtm...

2018-10-18 21:05:36 1955

原创 Spark学习笔记(5)—— 计算用户在小区停留时间最长的两个小区

1 数据源1.txt18688888888,20160327082400,16030401EAFB68F1E3CDF819735E1C66,118611132889,20160327082500,16030401EAFB68F1E3CDF819735E1C66,118688888888,20160327170000,16030401EAFB68F1E3CDF819735E1C66,018...

2018-10-18 17:09:01 353

原创 Spark学习笔记(4)—— RDD 高级算子

1 启动集群启动 Spark集群/home/hadoop/apps/spark-1.6.3-bin-hadoop2.6/sbin/start-all.sh启动 Spark Shell/home/hadoop/apps/spark-1.6.3-bin-hadoop2.6/bin/spark-shell --master spark://node1:7077 --total-executo...

2018-10-18 14:59:14 464

原创 Spark学习笔记(3)—— Spark计算模型 RDD

1

2018-10-17 19:51:13 263

原创 Spark学习笔记(3)—— Spark算子

1 Spark算子1.1 分为两类1.1.1 Transformation(转换)Transformation 延迟执行,它会记录元数据信息,当计算任务触发 Action 时才会真正开始计算。1.1.2 Action(动作)1.2 创建RDD的两种方式通过HDFS支持的文件系统创建RDD,RDD里面没有真正要计算的数据,只记录了元数据。通过Scala集合或者数组以并行化的方式创建R...

2018-10-17 16:33:06 591

原创 Spark学习笔记(2)—— Spark 和HDFS版 wordcount

1 启动 HDFS[hadoop@node1 ~]$ start-dfs.shStarting namenodes on [node1]node1: starting namenode, logging to /home/hadoop/apps/hadoop-2.7.6/logs/hadoop-hadoop-namenode-node1.outnode4: starting datanod...

2018-10-16 15:53:00 531

原创 Spark学习笔记(1)—— Spark 介绍,集群安装

1 Spark 介绍2 Spark 集群安装下载地址https://spark.apache.org/downloads.html2.1 源码上传到集群解压2.2 修改配置文件2.2.1 spark-env.sh[hadoop@node1 ~]$ cd /home/hadoop/apps/spark-1.6.3-bin-hadoop2.6/[hadoop@node1 spa...

2018-10-16 12:31:07 343

原创 Scala学习笔记(13)——隐式转换

1 泛型[T <: UpperBound][T >: LowerBound][T <% ViewBound][T : ContextBound][+T][-T]1.1 案例1package cn.tzb.implictclass Pair[T <: Comparable[T]] { def bigger(first: T, second: T) ...

2018-10-16 09:34:16 174

原创 Scala学习笔记(12)—— scala 高级特性

1 高阶函数Scala混合了面向对象和函数式的特性,通常将可以做为参数传递到方法中的表达式叫做函数。在函数式编程语言中,函数是“头等公民”,高阶函数包含:作为值的函数、匿名函数、闭包、柯里化等等。1.1 作为值的函数可以像任何其他数据类型一样被传递和操作的函数,每当你想要给算法传入具体动作时这个特性就会变得非常有用。定义函数时格式:val 变量名 = (输入参数类型和个数) => 函...

2018-10-15 12:24:58 206

原创 Scala学习笔记(11)—— RPC 通信框架

1 通信业务逻辑定义2个类 Master, Worker。首先启动Master,然后启动WorkerWorker 启动后,在 preStart 方法中与 Master 建立连接,向 Master 发送注册,将 Worker 的信息通过 case class 封装起来发送给 Master.Master 接收 Worker 的注册消息后,将Worker 的信息保存起来。然后向Worker反馈注...

2018-10-14 16:05:37 326

原创 Scala学习笔记(10)—— Akka 实现简单 RPC 框架

1 Akka 介绍目前大多数的分布式架构底层通信都是通过RPC实现的,RPC框架非常多,比如前我们学过的Hadoop项目的RPC通信框架,但是Hadoop在设计之初就是为了运行长达数小时的批量而设计的,在某些极端的情况下,任务提交的延迟很高,所有Hadoop的RPC显得有些笨重。Spark 的RPC是通过Akka类库实现的,Akka用Scala语言开发,基于Actor并发模型实现,Akka具有高...

2018-10-14 10:58:48 310

原创 Scala学习笔记(9)——java多线程

1 java 多线程import java.util.concurrent.ExecutorService;import java.util.concurrent.Executors;public class ThreadPool { public static void main(String[] args) throws InterruptedException { ...

2018-10-13 10:09:29 278

原创 Scala学习笔记(8)—— Actor版 wordcount

1 数据2 源码package wcimport scala.actors.{Actor, Future}import scala.collection.mutableimport scala.collection.mutable.ListBufferimport scala.io.Sourceclass Task extends Actor { override def ...

2018-10-12 22:47:57 248

原创 Scala学习笔记(7)—— Actor 类

1 Scala Actor 介绍Scala中的Actor能够实现并行编程的强大功能,它是基于事件模型的并发机制,Scala是运用消息(message)的发送、接收来实现多线程的。使用Scala能够更容易地实现多线程应用的开发。(注:Scala Actor是scala 2.10.x版本及以前版本的Actor。Scala在2.11.x版本中将Akka加入其中,作为其默认的Actor,老版本的Ac...

2018-10-12 16:38:14 296

原创 Scala学习笔记(6)—— 模式匹配和样例类

Scala有一个十分强大的模式匹配机制,可以应用到很多场合:如switch语句、类型检查等。并且Scala还提供了样例类,对模式匹配进行了优化,可以快速进行匹配1 匹配字符串import scala.util.Randomobject CaseDemo1 extends App { val arr = Array("M", "J", "G") val name = arr(R..

2018-10-12 15:49:57 230

原创 Scala学习笔记(5)—— scala 类、对象、继承、特质

1 类1.1 类的定义

2018-10-12 12:02:39 282

原创 Scala学习笔记(4)—— scala 练习

1 练习1.1 创建一个Listscala> val lst0 = List(1,7,9,8,0,3,5,4,6,2)lst0: List[Int] = List(1, 7, 9, 8, 0, 3, 5, 4, 6, 2)1.2 将lst0中每个元素乘以10后生成一个新的集合scala> val lst1 = lst0.map(_ * 10)lst1: List[Int]...

2018-10-11 21:55:58 1620

Python算法(英文)

Python版数据结构

2017-05-14

mfc编程基础

还在为mfc 而发愁吗? 本书带你走进mfc 的世界,领略C++编程的魅力,学习mfc 编程基础的知识。

2013-12-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除