自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 RDD算子介绍

一、RDD算子简介提供一优秀RDD讲解链接:https://blog.csdn.net/fortuna_i/article/details/81170565spark在运行过程中通过算子对RDD进行计算,算子是RDD中定义的函数,可以对RDD中数据进行转换和操作,如下图输入:spark程序中数据从外部数据空间输入到spark中的数据块,通过BlockManager进行管理运行:...

2018-05-29 11:26:44 3644

原创 Flume抽取SQL Server设计方案具体实现(二)触发器

上一篇将了如何使用Flume收集SQL server Board中的新增数据进行处理,如下针对更新的数据进行分析需求:对Board表更新的数据进行处理1.创建一个存更新数据的表Tri_Board_Update,表结构基本和原表机构一样,但需要添加Update_id(唯一标识列),TriggerTime(触发时间)方便后续Flume的数据收集CREATE TABLE [dbo].[Tri_Board...

2018-05-29 09:43:27 2014 1

转载 触发器相关操作指令

删除触发器:drop trigger trigger_name drop trigger trigger_name 查看数据库中已有触发器:use jxcSoftware go select * from sysobjects where xtype='TR' use jxcSoftwaregoselect * from sysobjects where xtype='TR' 修改触发...

2018-05-28 10:40:39 1679

原创 Flume抽取SQL Server设计方案

1.为表创建触发器

2018-05-28 10:37:59 2911 5

原创 Spark Streaming核心概念二(DStreams)

一、DStreamsDStreams是最基础的抽象类在Spark Streaming,它代表持续不断的数据流,数据流要么来源于input 数据流,要么来源于一个DStreamsz进过转换后生成的另外一个DStreaming,实际上一个DStreams一系列的RDD.每一个RDD包含的数据是一个间隔内的数据(批次)对Dstreams操作算子,比如map/flatMap,其实底层都会被翻译为对DStr...

2018-05-25 20:22:54 419

原创 Spark Streaming核心概念一(StreamingContext)

一、StreamingContext初始化一个Spark Streaming程序时必须要创建StreamingContext作为程序的入口。example:import org.apache.spark._import org.apache.spark.streaming._import org.apache.spark.streaming.StreamingContext._ // not ...

2018-05-25 19:58:03 882

原创 RDD介绍

一.Driver Program包含程序的main()方法程序入口,RDDs的定义和操作,它管理很多节点executors二、SparkContextDriver Program通过SparkContext对象访问SparkSparkContext对象代表和一个集合的连接在Shell中SparkContext自动创建好了,就是sc三、RDDResilient distributed dataset...

2018-05-24 14:11:41 323

转载 Hadoop Shell命令

FS Shell调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args>的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定...

2018-05-23 16:40:33 369

原创 开发第一个Spark程序

                                           WorldCount程序一、需求:对文本文件中的单词个数进行统计二、步骤:         1.创建一个Spark Context         2. 加载数据         3.把没一行分割成单词        4.转换成键值对并且计数。三、开发环境       IDEA+Maven, scala开发语言 ...

2018-05-23 16:39:27 6520

原创 Spark入门

一、Spark概述Apache Spark是一种闪电般的群集计算技术,专为快速计算而设计。 它基于Hadoop MapReduce,它扩展了MapReduce模型以便将其用于更多类型的计算,其中包括交互式查询和流处理。Spark的主要特点是其内存集群计算,可提高应用程序的处理速度,Spark旨在涵盖各种工作负载,如批处理应用程序,迭代算法,交互式查询和流式处理。 除了在各自的系统中支持所有这些工作...

2018-05-22 11:44:40 581

原创 Intellij IDEA中生成jar包

Intellij IDEA 为优秀的java开发环境,但是有很多人知道利用此工具可以编译成class文件,而不知道如何在intellij IDEA工具如何将所有的class打包成jar文件,现在将方法介绍如下:1.选择菜单File->Project Structure,将弹出Project Structure的设置对话框。2.选择左边的Artifacts后点击上方的“+”按钮3.在弹出的框中...

2018-05-22 09:04:23 212

原创 Kafka 生产实战

1.kafka安装地址:ICC-FIS-KAFKA:35上,配置文件:/data/kafka/config/server.properties  相关命令如下:(1) jps -m  查看系统中kafka在使用情况:  65841 ProdServerStart  60132 Jps -m  132028 Kafka config/server.properties(2)查看系统中已建立的topi...

2018-05-22 08:25:07 168

原创 Spark Streaming概述(1)

一、Spark Streming 概述Spark Streming是一个可扩展、高可靠、容错的一个流处理框架二、Spark Streaming特点低延时、容错、能够运行到成白上千的节点上、能够将批处理、机器学习、图计算等子框架和Spark Streaming综合起来使用三、Spark Streaming处理流程将不同的数据源的数据经过Spark Streaming处理后将结果输出到外部文件系统,如...

2018-05-21 23:14:03 516

原创 Flume和kafka的结合实战

1.修改flume的配置文档exec-memory-kafka.conf ,使用kafka sink# Name the components on this agenta1.sources = r1  #a1代表agent名称,r1:数据源的名称a1.sinks = k1    #k1 sink名称a1.channels = c1  #c1 channel名称# Describe/configu...

2018-05-21 22:50:11 1056

原创 Flume 生产配置

1.Flume安装位置:10.96.183.54:  /home/hadoop/flume-1.7.0/2.配置文档:Aoi.propertiesaoi.channels = c1 aoi.sources = r1aoi.sinks = k1 aoi.sources.r1.type = spooldir  aoi.sources.r1.channels = c1aoi.sources.r1.spo...

2018-05-21 14:59:16 486

原创 Maven

一、什么是Maven?Maven是基于项目对象模型(POM),可以通过一小段信息来管理项目的构建、报告和文档的软件项目管理工具,可以帮助我们更高效的管理项目。二、Maven中央仓库网络地址https://repo.maven.apache.org/maven2/也可以在settings.xml中修改mirror中的镜像仓库值,连接其它的url例如;http://maven.aliyun.com/n...

2018-05-19 20:12:19 150

原创 Kafka 单节点多Broker部署及使用

 吃

2018-05-15 20:04:11 2201

原创 .NET 通过ODBC连接Impala

1.在Cloudera官网上根据impala的版本下载对应的驱动:https://www.cloudera.com/downloads/connectors/impala/odbc/2-5-41.html2.安装ODBC驱动3.配置ODBC:注意:根据windows系统的版本,在对应的ODBC应用程序下配置数据库信息C:\Windows\System32或者C:\Windows\SysWOW64找...

2018-05-12 13:49:49 3359

转载 C#使用ODBC链接MySQL数据库

C#使用ODBC链接MySQL数据库2011年09月04日 22:06:18阅读数:16829C#使用ODBC链接MySQL数据库1、ODBC.NET(全称ODBC .NET Data Provider)是一个免费的.NET Framework附加组件,需要到微软公司的网站上去下载,下载地址为:http://download.microsoft.com/download/dasdk/Install...

2018-05-11 15:30:11 2187

转载 Impala和Hive的关系(详解)

Impala和Hive的关系(详解) Impala和Hive的关系   Impala是基于Hive的大数据实时分析查询引擎,直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中。并且impala兼容Hive的sql解析,实现了Hive的SQL语义的子集,功能还在不断的完善中。   与Hive的关系  Impala 与Hive都是构建在Hadoo...

2018-05-10 10:55:33 3830

转载 Hive数据倾斜解决方法总结

Hive数据倾斜解决方法总结      数据倾斜是进行大数据计算时最经常遇到的问题之一。当我们在执行HiveQL或者运行MapReduce作业时候,如果遇到一直卡在map100%,reduce99%一般就是遇到了数据倾斜的问题。数据倾斜其实是进行分布式计算的时候,某些节点的计算能力比较强或者需要计算的数据比较少,早早执行完了,某些节点计算的能力较差或者由于此节点需要计算的数据比较多,导致出现其他节...

2018-05-09 15:13:07 255

转载 hive异常记录

1.HIVE MapJoin异常问题摘要: HIVE被很广泛的使用,使用过程中也会遇到各种千奇百怪的问题。这里就遇到的MapJoin Local 内存不足的问题进行讨论,从问题描述、mapjion原理以及产生该问题的原因,解决方案做一下介绍,最后对该问题进行了进一步的思考,希望对解决该类问题的朋友有所帮助。问题描述在跑hive作业的时候,偶尔会遇到下面的异常 FAILED: Execution E...

2018-05-09 14:59:27 1767

原创 kafka概述

1.官网:https://kafka.apache.org/消息系统类似:消息中间件:生产者和消费者。Kafka架构:producer:生产者consumer:消费者broker:块、篮子topic:主题,给消息打标签。Kafka部署和使用:1.单节点单broker部署使用2.单节点多broker部署使用3.多节点多broker部署使用kafka依赖zookeeper,首先需要安装zookeepe...

2018-05-08 23:01:59 174

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除