自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 资源 (2)
  • 收藏
  • 关注

原创 Spark开发-SparkSql的开发

核心 1、介绍SparkSQL中的2中RDD转换成DataFrame的方式 2、使用反射推理模式 3、以编程的方式指定schemaSpark SQL支持将现有RDD转换为DataFrames的两种不同方法。第一种方法使用反射来推断包含特定类型对象的RDD模式。当您在编写Spark应用程序时已经知道架构时,这种基于反射的方法会导致更简洁的代码,并且可以很好地运行。 创建DataFrames的第

2017-09-28 23:34:56 858 1

原创 linux中crontab的问题

最近在使用crontab做调度的时候,发现任务调度不起来,30 6 * * * /appcom/DruidInstall/druidinstall/shell/common.sh app_pacz_app_study_day gbd_dm_pac_safe `date +%Y%m%d --date="-1 day"` `date +%F --date="-1 day"` 1 stats_day >

2017-09-26 19:37:22 388

原创 Spark开发-Action操作

核心 1、spark中Action的操作reduce(func) reduce采样累加或关联操作减少RDD中元素的数量scala> val data=sc.parallelize(1 to 9)scala> data.reduce(_+_)res0: Int = 45collect() 将execute上的数据收集到driver端上scala> val data=sc.paralleliz

2017-09-25 20:27:37 603

原创 Spark源码-SparkContext源码解析

核心 1、Spark1.6.3源码SparkContext解析下面这段是创建SparkContext的部分代码,主要是创建TaskScheduler和TaskSchedulerBackend// We need to register "HeartbeatReceiver" before "createTaskScheduler" because Executor will// retrieve

2017-09-24 23:38:49 574

原创 Spark开发-transformations操作

核心 transformations操作 map(func) 返回一个新的RDD,这个函数的主要功能是对所有元素进行参数上的操作 对每一条输入进行指定的操作,然后为每一条输入返回一个对象 例如 val rdd1=sc.parallelize(Array(1,2,3,4)).map(x=>2*x).collect 这个是对数据 1,2,3,4进行map操作,里面的函数是2*x就是每个元素都

2017-09-22 09:39:30 461

原创 Spark开发-Spark内核细说

核心 1、介绍spark的内核集群模式是Standalone的 ● Driver:就是我们用来提交编写的Spark程序的一台机器,在Driver中最重要的一件事—创建SparkContext ● Application :就是我们编写的程序,类里面创建了SparkContext的程序 ● spark-submit: 就是用来向Spark集群提交application的程序,spa

2017-09-21 00:25:21 440

原创 Spark开发-HA环境的搭建

环境 1、Hadoop2.6 2、spark1.6 3、zookeeper 3.4.6主机 192.168.18.140 master 192.168.18.141 slave1 192.168.18.142 slave2 192.168.18.143 slave3现在我们要做的是,在master、slave1、slave2部署zookeeper。在master和slave1上面启动

2017-09-20 00:26:46 1109

原创 Spark开发-WordCount流程详细讲解

核心 wordcount流程详细讲解有一份这样的数据 hello xlucas hello hadoop hello hadoop hello spark hello kafka最后的结果是这样的 hello:5 hadoop:2 spark:1 xlucas:1 kafka:1 那么这里spark主要做了哪些事情?我们先从textFile可以看到这里调用了HadoopFi

2017-09-18 00:19:07 1269

原创 Spark开发-WordCount详细讲解Java版本

核心 用Java开发spark的第一个应用程序wordcount环境 idea java1.7案例package com.xlucas;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import

2017-09-16 23:52:31 2507

原创 Spark开发-WordCount详细讲解

核心 详细讲解spark中wordcount的执行 环境 idea 2017.1.5 java 1.7 scala 2.10 spark 1.6程序编写package com.xlucasimport org.apache.spark.{SparkConf, SparkContext}/** * Created by xlucas on 2017/9/14. */object

2017-09-15 23:44:35 4458

原创 Spark开发-spark运行原理和RDD

核心 1、Spark运行原理 2、RDD1、Spark运行原理 spark应用程序基本概念 application:基于spark的用户程序,包含了driver program和集群中多个executor driver program:运行application的main()函数并且创建sparkcontext,通常用sparkcontext代表driver program execut

2017-09-13 23:48:37 546

原创 Spark开发-网站点击率排名方法

网站的点击率排名。 思路 1、先对文本进行分隔做key value 的转换 2、基于key value的键值对做reduceByKey的操作 3、将key 和value的位置调换,编程value key 4、对key进行排序 5、重复第3点的工作。代码如下:sc.textFile("/input/passwd").flatMap(_.split(":")).map(word=>(word

2017-09-12 23:35:14 605

原创 idea对接github

1、安装了 git for windows客户端 2、选择安装目录下的git.exe 3、指定github的用户名和密码 4、第一次上传工程到github,需要这一步 非第一次上传代码,需要像使用Git命令一样,遵循Add->Commit->Push的方式。

2017-09-12 21:14:18 328

原创 机器学习-TensorFlow安装

环境准备 centos 7 python 2.7[root@master ~]# uname -aLinux master 3.10.0-229.el7.x86_64 #1 SMP Fri Mar 6 11:36:42 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux[root@master ~]# python -VPython 2.7.5安装pip[root

2017-09-10 23:46:47 539

原创 Spark开发-spark环境搭建

环境准备 master 192.168.18.140 slave1 192.168.18.141 slave2 192.168.18.142 slave3 192.168.18.143 hadoop 2.6 spark 1.6 scala 2.11 java 1.7hadoop的安装我就在这里不介绍了,直接介绍spark的安装。 1、先安装Scala,这个和Java的安装类似

2017-09-10 23:25:27 548

原创 linux中磁盘的挂载

查看现在有哪些未挂载的磁盘 [root@slave2 ~]# fdisk -lDisk /dev/sda: 21.5 GB, 21474836480 bytes 255 heads, 63 sectors/track, 2610 cylinders Units = cylinders of 16065 * 512 = 8225280 bytes Sector size (logical/ph

2017-09-10 17:14:51 502

原创 Druid中coordinator的介绍

核心 1、主要介绍coordinate的作用 2、借助coordinate完成一些查询操作coordinate的作用 druid协调节点主要负责管理segment和分发,更具体的说,druid协调节点和历史节点进行通信,根据配置进行加载segment或删除segment。druid的协调节点负责加载新的segment,删除过时的segment,管理segment副本和做segment的平衡。d

2017-09-08 22:34:04 2558

原创 druid 元数据接口查询

1、元数据查询 druid支持对DataSource的基础元数据查询 1、time Boundary 通过timeBoundary可查询DataSource的最早和最晚的时间点,查询json示例 语法{ "queryType" : "timeBoundary", "dataSource": "sample_datasource", "bound" : < "m

2017-09-07 20:24:13 2995

原创 Log4j配置说明

Log2j配置说明<?xml version="1.0" encoding="UTF-8"?><!DOCTYPE log4j:configuration SYSTEM "log4j.dtd"><log4j:configuration> <!-- 将日志信息输出到控制台 --> <appender name="ConsoleAppender" class="org.apache.l

2017-09-06 20:32:19 372

原创 Spark基础-Scala文件操作

核心 scala文件操作文件操作的大概流程package com.xlucasimport java.io._import scala.io.Source/** * Created by xlucas on 2017/9/4 0004. */@SerialVersionUID(99L) class PaicMis(val name:String) extends Serializab

2017-09-04 23:45:57 1652

原创 Spark基础-Scala提取器

核心 1、scala提取器unapplypackage com.xlucas/** * Created by xlucas on 2017/9/3 0003. */case class Person1(name:String,age:Int)object ExtractorOop{ def main(args: Array[String]): Unit = { val per

2017-09-03 22:39:27 453

原创 druid 查询接口的使用

核心 druid 查询接口的使用druid的查询接口是HTTP REST 风格的查询方式,使用HTTP REST 风格查询(Broker,Historical,或者Realtime)节点的数据,查询参数为JSON格式,每个节点类型都会暴露相同的REST查询接口curl -X POST '<queryable_host>:<port>/druid/v2/?pretty' -H 'Content-Ty

2017-09-01 23:13:06 9040 4

selenium2.53包

此包包含了IE、google的驱动文件,是selenium2.53的软件,详细的环境搭建请查看博客

2016-10-08

selenium2.53软件包

自动化测试selenium2.53软件包,包含了ide 和IE、google的驱动包

2016-10-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除