2018年12月_一角残叶

原创 Hadoop源码解析学习笔记（2）—— HDFS部署

1 HDFS 部署独立模式伪分布式模式分布式模式1.1 Hadoop 1.x 配置

2018-12-31 15:53:32 368

原创 Hadoop源码解析学习笔记（1）—— Hadoop生态介绍

1 云计算的概念狭义：指 IT 基础设施的交付和使用模式，通过网络以按需、易扩展的方式获得所需的资源（硬件、平台、软件）广义：指服务的交付和使用模式，通过网络以按需、易扩展的方式获得所需的服务。这种服务可以是 IT 和软件、互联网相关的，也可以是任意其他的服务。1.1 云计算的三层模型IaaS,Infrastructure as a Service,基础设施即服务，消费者可以通过In...

2018-12-31 11:43:31 242

原创大数据实时计算Spark学习笔记（11）—— Spark Streaming

1 Spark Streamingspark core 的扩展，针对实时数据处理，具有可扩展、高吞吐、容错；内部，spark 接受实时数据流，分成 batch 进行处理，最终在每个 batch 产生结果；1.1 discretized stream or DStream通过kafka,flume 等输入产生，或者通过其他的 DStream 进行高阶变换产生；在内部，DStream ...

2018-12-31 08:59:58 303

原创大数据实时计算Spark学习笔记（10）—— Spar SQL(2) -JDBC方式操作表

1 Spark SQL 的 JDBC 方式POM 文件添加依赖 <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.38</versio...

2018-12-29 14:39:35 335

原创大数据实时计算Spark学习笔记（9）—— Spar SQL(1) 读取 json 文件

1 Spark SQL编程方式：（1）SQL;(2) DataFrame APIscala&gt; case class Customer(id:Int,name:String,age:Int)defined class Customerscala&gt; val arr = Array("1,Mike,20","2,Mary,19","3,Jerry,23&quo

2018-12-29 10:16:18 1161

原创大数据实时计算Spark学习笔记（8）—— RDD 持久化

1 RDD 持久化跨操作进行RDD的内存式存储；持久化 RDD时，节点上的每个分区都会保存到内存中；缓存技术是迭代计算和交互式查询的重要工具；使用 persist() 和 cache() 进行 RDD 的持久化，cache() 是 perisit() 的一种；action 第一次操作时会发生 persist()spark的 cache是容错的，如果RDD的任何一个分区丢失了，都可以...

2018-12-28 19:25:50 633

原创大数据实时计算Spark学习笔记（7）—— RDD 数据倾斜处理

1 处理数据倾斜在 reduceByKey 之前先进行随机分区package com.bigdataSpark.cnimport org.apache.spark.{SparkConf, SparkContext}import scala.util.Randomobject DataLeanDemo { def main(args: Array[String]): Unit ...

2018-12-28 12:19:53 208

原创大数据实时计算Spark学习笔记（6）—— RDD的action

1 RDD 的 action1.1 collect收集 RDD 的元素形成数组1.2 count统计 RDD 元素的个数1.3 reduce聚合，返回一个值1.4 first取出第一个元素1.5 take(n)1.6 saveAsTextFile...

2018-12-28 08:35:40 166

原创大数据实时计算Spark学习笔记（5）—— RDD的 transformation

1 RDD的转换1.1 groupByKey(k,v) => (k,Iterable)package com.bigdataSpark.cnimport org.apache.spark.{SparkConf, SparkContext}object GroupByKeyDemo { def main(args: Array[String]): Unit = {...

2018-12-27 21:44:15 207

原创大数据实时计算Spark学习笔记（4）—— Spak核心 API 模块介绍

1 Spark 介绍1.1 Spark 特点速度：在内存中存储中间结果支持多种语言内置 80+ 的算子高级分析：MR,SQL/ Streaming/Mlib/Graph1.2 Spark 模块core : 通用执行引擎，提供内存计算和对外部数据集的引用；SQL : 构建在 core 之上，引入抽象的 schemaRDD,提供了结构化和半结构化的支持；streaming: 小...

2018-12-27 17:08:27 418

原创大数据实时计算Spark学习笔记（3）—— Spak Maven 编译插件

1 Scala Maven 编译插件<build> <sourceDirectory>src/main/java</sourceDirectory> <plugins> <plugin> <groupId>org.apache.maven...

2018-12-27 10:12:38 197

原创大数据实时计算Spark学习笔记（2）—— Spak 集群搭建

1 Spark 集群模式local: spark-shell --master local,默认的standlone1.复制 spark 目录到其他主机2.配置其他主机的环境变量3.配置 master 节点的 slaves 文件4.启动 spark集群，start-all.sh5.WebUI: 8080YARN 模式mesos 模式2 Spark集群完全分布式 sta...

2018-12-27 09:42:11 330

原创大数据实时计算Spark学习笔记（1）—— Spak单词统计

1 启动 Spark-shell[hadoop@node1 ~]$ spark-shellUsing Spark's default log4j profile: org/apache/spark/log4j-defaults.propertiesSetting default log level to "WARN".To adjust logging level use sc.setL...

2018-12-27 08:19:10 430

原创 Scala学习笔记（9）—— Scala实战项目（1）- 环境搭建

1 项目需求1.1 数据库管理(java实现)default my-db1 my-db2id:数据库编号name : 数据库名称location : 数据库存放在 HDFS/S3/OSS 等文件系统上的目录 /user/hive/warehouse /user/hive/warehouse/my-db1.db1.2 表管理（scala语言实现）my-table1 my-ta...

2018-12-22 17:43:25 542

原创 Scala学习笔记（8）—— Scala操作外部数据

1 Scala 读取文件package com.scalatest.scala.class09import java.net.URLimport scala.io.Sourceobject FileApp { def main(args: Array[String]): Unit = { val file = Source.fromFile("d:/test....

2018-12-22 15:37:05 271

原创 Scala学习笔记（7）—— Scala 隐式转换

1 隐式转换概述需求：为一个已存在的类添加一个新的方法（不知道这个类的源码）java: 动态代理scala : 隐式转换（双刃剑）package com.scalatest.scala.hideobject ImplicitApp extends App { implicit def man2superman(man: Man): SuperMan = new Supe...

2018-12-22 14:31:09 229

原创 Scala学习笔记（6）—— Scala 函数高阶操作

1 Scala 函数高阶操作字符串的高级操作匿名函数curry函数高阶函数偏函数2 字符串高级操作多行Interpolationpackage com.scalatest.scala.advanceobject StringApp extends App { val s = &amp;amp;quot;Hello: &amp;amp;quot; val name = &amp;amp;quot;Mike&

2018-12-21 17:12:58 221

原创 Scala学习笔记（5）—— Scala 模式匹配

1 模式匹配package com.scalatest.scala.patternimport scala.util.Randomobject MatchApp extends App { val names = Array("Mike", "John", "Jenny") val name = names(Random.nextInt(names.length))..

2018-12-21 15:52:18 197

原创 Spark Streaming 项目实战（12）—— Web层开发

1 Web 层开发1.1 POM 添加依赖&lt;dependency&gt; &lt;groupId&gt;net.sf.json-lib&lt;/groupId&gt; &lt;artifactId&gt;json-lib&lt;/artifactId&gt; &

2018-12-21 15:40:00 691

原创 Scala学习笔记（4）—— Scala集合

1 数组1.1 定长数组类名（） ==》调用 Object 的apply方法1.2 可变数组package com.scalatest.scala.array//继承了 App ，不用写main方法了object ArrayApp extends App{ val b = scala.collection.mutable.ArrayBuffer[Int]()...

2018-12-21 10:18:31 223

原创 Scala学习笔记（3）—— Scala面向对象

1 面向对象特点封装：属性、方法封装到类中；继承多态：父类引用指向子类对象，开发框架的基石package com.scalatest.scala.oopobject SimpleObjectApp { def main(args: Array[String]): Unit = { val person = new People() perso...

2018-12-20 22:29:50 225

原创 Scala学习笔记（2）—— Scala 函数

1 函数的定义def 方法名(参数名：参数类型):返回值类型 = { // 方法体 //方法体内的最后一行是返回值，不需要 return}当函数没有输入的参数，调用的时候可以不写括号package com.scalatest.scala.functionobject FunctionApp { def main(args: Array[String]): ...

2018-12-20 20:19:20 214

原创 Scala学习笔记（1）—— 基础

1 val VS var

2018-12-20 17:07:13 190

原创 Spark Streaming 项目实战（11）——获取Hbase表中实战课程的访问次数

1 调整项目结构2 开发应用2.1 POM中添加依赖&amp;lt;repositories&amp;gt; &amp;lt;repository&amp;gt; &amp;lt;id&amp;gt;cloudera&amp;lt;/id&amp;gt; &amp;lt;url&

2018-12-19 18:24:20 295

原创 IDEA方法注释模板

1 IDEA方法注释模板param处groovyScript(&quot;def result=''; def params=\&quot;${_1}\&quot;.replaceAll('[\\\\[|\\\\]|\\\\s]', '').split(',').toList(); for(i = 0; i &amp;lt; params.size(); i++) {if(params[i] == '') return r...

2018-12-19 16:44:40 187

原创 Spark Streaming 项目实战（10）—— 可视化

1 构建 Spring Boot 项目删除1.1 新建测试类HelloBoot.javapackage com.sparkstreaming.project.demo;import org.springframework.web.bind.annotation.RequestMapping;import org.springframework.web.bind.an...

2018-12-19 15:46:59 765 4

原创 Spark Streaming 项目实战（9）——将项目运行在服务器

1 打包编译修改源码报错[ERROR] D:\Data\JavaProject\sparktrain\src\main\scala\streamingproject\dao\CourseClickCountDAO.scala:6: error: object HBaseUtils is not a member of package streamingproject.utils[I...

2018-12-18 19:42:10 426

原创 Spark Streaming 项目实战（8）—— 功能2

1 需求统计今天到现在为止从搜索引擎引流过来的实战课程的访问量1.1 HBase 新建表2 源码CourseSearchClickCount.scalapackage streamingproject.domian/** * @Description: 从搜索引擎过来的实战课程点击数实体类 **/case class CourseSearchClickCount(day...

2018-12-18 19:05:08 251 1

原创 Spark Streaming 项目实战（7）—— 将Spark Streaming 处理结果写入 HBase

1 源码清空Hbase 表StatStreamingApp.scalapackage streamingprojectimport org.apache.spark.SparkConfimport org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.spark.streaming.{Seconds, Stre...

2018-12-18 16:27:25 527

原创 Spark Streaming 项目实战（6）——数据库访问DAO层方法实现

1 源码CourseClickCount.scalapackage streamingproject.domian/** 实战课程点击数** */case class CourseClickCount(day_course: String, click_count: Long)CourseClickCountDAO.scalapackage streamingproj...

2018-12-18 16:01:04 333

原创 Spark Streaming 项目实战（4）——HBase工具类

1 需求分析今天到现在为止实战课程的访问量，Spaark Streaming 把统计结果存到数据库RDBMS(关系型数据库)：MySQL, Oracleday course_id click_count20181218 1 3020181...

2018-12-18 15:35:21 545

原创 Spark Streaming 项目实战（3）—— 数据清洗

1 测试数据接收package streamingprojectimport org.apache.spark.SparkConfimport org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.spark.streaming.{Seconds, StreamingContext}/** 使用 Spark Str...

2018-12-18 09:45:29 1932 1

原创二叉树学习笔记

1 二叉树介绍根节点：没有父节点的节点；叶子节点（叶节点）：没有子节点的节点；1.2 高度、深度、层节点的高度 = 节点到叶子节点的最长路径（边数）节点的深度 = 根节点到这个节点所经历的边的个数节点的层数 = 节点的深度 + 1树的高度 = 根节点的高度2 树的层遍历/* * 1.访问根节点 * 2.在访问第 l 层时，将 l+1 层的节点按顺序保存...

2018-12-15 22:30:55 154

原创 Spark Streaming 项目实战（2）—— Flume 对接python日志产生器,和Kafka

1 Flume 对接日志产生器1.1 Flume 配置文件streaming_project.confexec-memory-logger.sources = exec-sourceexec-memory-logger.sinks = logger-sinkexec-memory-logger.channels = memory-channelexec-memory-logger.s...

2018-12-14 15:56:26 522 6

原创 Spark Streaming 项目实战（1）——日志生成脚本

1 功能统计实战课程访问量统计从搜索引擎引流过来的实战课程访问量1.1 python 日志产生脚本

2018-12-14 14:51:09 341

原创二叉树

1 定义一个二叉树public class BinaryTreeNode { private int data; private BinaryTreeNode left; private BinaryTreeNode right; public int getData() { return data; } public void...

2018-12-10 17:13:52 107

原创 centos7 保留Python2,安装python3

1 centos7 安装 python3查看已安装的版本安装依赖yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-develyum instal...

2018-12-09 17:19:21 298

原创 Spark Streaming实时流处理笔记（14)—— Spark Streamig 整合 Flume 和 Kafka

1 目标将 log4j 生成的日志输出到 Flume整合 Flume 到 Kafka整合 Kafka 到 Spark Streaming2 日志产生log4j.propertieslog4j.rootLogger=INFO,stdoutlog4j.appender.stdout=org.apache.log4j.ConsoleAppenderlog4j.appender...

2018-12-09 15:41:04 293 1

原创 Spark Streaming实时流处理笔记（13)—— Spark Streamig 整合 Kakfa

1 基于 Receiver1.1 启动 Kafka先启动 zookeeper

2018-12-09 09:20:56 298

原创 Spark Streaming实时流处理笔记（12) —— Spark Streming 整合 Flume(2)——pull方式

1 pullhttps://spark.apache.org/docs/2.2.0/streaming-flume-integration.html1.1 flume 配置文件 flume_pull_streaming.conf# Name the components on this agentsimple-agent.sources = netcat-sourcesimple-age...

2018-12-07 12:57:03 230

Python算法（英文）

mfc编程基础

空空如也