2017年09月_Xlucas

原创 Spark开发-SparkSql的开发

核心 1、介绍SparkSQL中的2中RDD转换成DataFrame的方式 2、使用反射推理模式 3、以编程的方式指定schemaSpark SQL支持将现有RDD转换为DataFrames的两种不同方法。第一种方法使用反射来推断包含特定类型对象的RDD模式。当您在编写Spark应用程序时已经知道架构时，这种基于反射的方法会导致更简洁的代码，并且可以很好地运行。创建DataFrames的第

2017-09-28 23:34:56 858 1

最近在使用crontab做调度的时候，发现任务调度不起来，30 6 * * * /appcom/DruidInstall/druidinstall/shell/common.sh app_pacz_app_study_day gbd_dm_pac_safe `date +%Y%m%d --date="-1 day"` `date +%F --date="-1 day"` 1 stats_day >

2017-09-26 19:37:22 388

原创 Spark开发-Action操作

核心 1、spark中Action的操作reduce(func) reduce采样累加或关联操作减少RDD中元素的数量scala> val data=sc.parallelize(1 to 9)scala> data.reduce(_+_)res0: Int = 45collect() 将execute上的数据收集到driver端上scala> val data=sc.paralleliz

2017-09-25 20:27:37 603

原创 Spark源码-SparkContext源码解析

核心 1、Spark1.6.3源码SparkContext解析下面这段是创建SparkContext的部分代码,主要是创建TaskScheduler和TaskSchedulerBackend// We need to register "HeartbeatReceiver" before "createTaskScheduler" because Executor will// retrieve

2017-09-24 23:38:49 574

原创 Spark开发-transformations操作

核心 transformations操作 map(func) 返回一个新的RDD，这个函数的主要功能是对所有元素进行参数上的操作对每一条输入进行指定的操作，然后为每一条输入返回一个对象例如 val rdd1=sc.parallelize(Array(1,2,3,4)).map(x=>2*x).collect 这个是对数据 1,2,3,4进行map操作，里面的函数是2*x就是每个元素都

2017-09-22 09:39:30 461

原创 Spark开发-Spark内核细说

核心 1、介绍spark的内核集群模式是Standalone的 ● Driver：就是我们用来提交编写的Spark程序的一台机器，在Driver中最重要的一件事—创建SparkContext ● Application ：就是我们编写的程序，类里面创建了SparkContext的程序 ● spark-submit: 就是用来向Spark集群提交application的程序，spa

2017-09-21 00:25:21 440

原创 Spark开发-HA环境的搭建

环境 1、Hadoop2.6 2、spark1.6 3、zookeeper 3.4.6主机 192.168.18.140 master 192.168.18.141 slave1 192.168.18.142 slave2 192.168.18.143 slave3现在我们要做的是，在master、slave1、slave2部署zookeeper。在master和slave1上面启动

2017-09-20 00:26:46 1109

原创 Spark开发-WordCount流程详细讲解

核心 wordcount流程详细讲解有一份这样的数据 hello xlucas hello hadoop hello hadoop hello spark hello kafka最后的结果是这样的 hello:5 hadoop:2 spark:1 xlucas:1 kafka:1 那么这里spark主要做了哪些事情？我们先从textFile可以看到这里调用了HadoopFi

2017-09-18 00:19:07 1269

原创 Spark开发-WordCount详细讲解Java版本

核心用Java开发spark的第一个应用程序wordcount环境 idea java1.7案例package com.xlucas;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import

2017-09-16 23:52:31 2507

原创 Spark开发-WordCount详细讲解

核心详细讲解spark中wordcount的执行环境 idea 2017.1.5 java 1.7 scala 2.10 spark 1.6程序编写package com.xlucasimport org.apache.spark.{SparkConf, SparkContext}/** * Created by xlucas on 2017/9/14. */object

2017-09-15 23:44:35 4458

原创 Spark开发-spark运行原理和RDD

核心 1、Spark运行原理 2、RDD1、Spark运行原理 spark应用程序基本概念 application：基于spark的用户程序，包含了driver program和集群中多个executor driver program：运行application的main()函数并且创建sparkcontext，通常用sparkcontext代表driver program execut

2017-09-13 23:48:37 546

原创 Spark开发-网站点击率排名方法

网站的点击率排名。思路 1、先对文本进行分隔做key value 的转换 2、基于key value的键值对做reduceByKey的操作 3、将key 和value的位置调换，编程value key 4、对key进行排序 5、重复第3点的工作。代码如下：sc.textFile("/input/passwd").flatMap(_.split(":")).map(word=>(word

2017-09-12 23:35:14 605

原创 idea对接github

1、安装了 git for windows客户端 2、选择安装目录下的git.exe 3、指定github的用户名和密码 4、第一次上传工程到github,需要这一步非第一次上传代码，需要像使用Git命令一样，遵循Add->Commit->Push的方式。

2017-09-12 21:14:18 328

原创机器学习-TensorFlow安装

环境准备 centos 7 python 2.7[root@master ~]# uname -aLinux master 3.10.0-229.el7.x86_64 #1 SMP Fri Mar 6 11:36:42 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux[root@master ~]# python -VPython 2.7.5安装pip[root

2017-09-10 23:46:47 539

原创 Spark开发-spark环境搭建

环境准备 master 192.168.18.140 slave1 192.168.18.141 slave2 192.168.18.142 slave3 192.168.18.143 hadoop 2.6 spark 1.6 scala 2.11 java 1.7hadoop的安装我就在这里不介绍了，直接介绍spark的安装。 1、先安装Scala，这个和Java的安装类似

2017-09-10 23:25:27 548

原创 linux中磁盘的挂载

查看现在有哪些未挂载的磁盘 [root@slave2 ~]# fdisk -lDisk /dev/sda: 21.5 GB, 21474836480 bytes 255 heads, 63 sectors/track, 2610 cylinders Units = cylinders of 16065 * 512 = 8225280 bytes Sector size (logical/ph

2017-09-10 17:14:51 502

原创 Druid中coordinator的介绍

核心 1、主要介绍coordinate的作用 2、借助coordinate完成一些查询操作coordinate的作用 druid协调节点主要负责管理segment和分发，更具体的说，druid协调节点和历史节点进行通信，根据配置进行加载segment或删除segment。druid的协调节点负责加载新的segment，删除过时的segment，管理segment副本和做segment的平衡。d

2017-09-08 22:34:04 2558

原创 druid 元数据接口查询

1、元数据查询 druid支持对DataSource的基础元数据查询 1、time Boundary 通过timeBoundary可查询DataSource的最早和最晚的时间点，查询json示例语法{ "queryType" : "timeBoundary", "dataSource": "sample_datasource", "bound" : < "m

2017-09-07 20:24:13 2995

原创 Log4j配置说明

Log2j配置说明<?xml version="1.0" encoding="UTF-8"?><!DOCTYPE log4j:configuration SYSTEM "log4j.dtd"><log4j:configuration>  <appender name="ConsoleAppender" class="org.apache.l

2017-09-06 20:32:19 372

原创 Spark基础-Scala文件操作

核心 scala文件操作文件操作的大概流程package com.xlucasimport java.io._import scala.io.Source/** * Created by xlucas on 2017/9/4 0004. */@SerialVersionUID(99L) class PaicMis(val name:String) extends Serializab

2017-09-04 23:45:57 1652

原创 Spark基础-Scala提取器

核心 1、scala提取器unapplypackage com.xlucas/** * Created by xlucas on 2017/9/3 0003. */case class Person1(name:String,age:Int)object ExtractorOop{ def main(args: Array[String]): Unit = { val per

2017-09-03 22:39:27 453

原创 druid 查询接口的使用

核心 druid 查询接口的使用druid的查询接口是HTTP REST 风格的查询方式，使用HTTP REST 风格查询(Broker,Historical,或者Realtime)节点的数据,查询参数为JSON格式，每个节点类型都会暴露相同的REST查询接口curl -X POST '<queryable_host>:<port>/druid/v2/?pretty' -H 'Content-Ty

2017-09-01 23:13:06 9040 4

Xlucas的博客