2018年05月_fengfengchen95

原创 RDD算子介绍

一、RDD算子简介提供一优秀RDD讲解链接：https://blog.csdn.net/fortuna_i/article/details/81170565spark在运行过程中通过算子对RDD进行计算，算子是RDD中定义的函数，可以对RDD中数据进行转换和操作，如下图输入：spark程序中数据从外部数据空间输入到spark中的数据块，通过BlockManager进行管理运行：...

2018-05-29 11:26:44 3644

原创 Flume抽取SQL Server设计方案具体实现（二）触发器

上一篇将了如何使用Flume收集SQL server Board中的新增数据进行处理，如下针对更新的数据进行分析需求：对Board表更新的数据进行处理1.创建一个存更新数据的表Tri_Board_Update,表结构基本和原表机构一样，但需要添加Update_id（唯一标识列），TriggerTime（触发时间）方便后续Flume的数据收集CREATE TABLE [dbo].[Tri_Board...

2018-05-29 09:43:27 2014 1

转载触发器相关操作指令

删除触发器：drop trigger trigger_name drop trigger trigger_name 查看数据库中已有触发器：use jxcSoftware go select * from sysobjects where xtype='TR' use jxcSoftwaregoselect * from sysobjects where xtype='TR' 修改触发...

2018-05-28 10:40:39 1679

原创 Flume抽取SQL Server设计方案

1.为表创建触发器

2018-05-28 10:37:59 2911 5

原创 Spark Streaming核心概念二（DStreams）

一、DStreamsDStreams是最基础的抽象类在Spark Streaming,它代表持续不断的数据流，数据流要么来源于input 数据流，要么来源于一个DStreamsz进过转换后生成的另外一个DStreaming,实际上一个DStreams一系列的RDD.每一个RDD包含的数据是一个间隔内的数据（批次）对Dstreams操作算子，比如map/flatMap,其实底层都会被翻译为对DStr...

2018-05-25 20:22:54 419

原创 Spark Streaming核心概念一（StreamingContext）

一、StreamingContext初始化一个Spark Streaming程序时必须要创建StreamingContext作为程序的入口。example:import org.apache.spark._import org.apache.spark.streaming._import org.apache.spark.streaming.StreamingContext._ // not ...

2018-05-25 19:58:03 882

原创 RDD介绍

一.Driver Program包含程序的main()方法程序入口，RDDs的定义和操作，它管理很多节点executors二、SparkContextDriver Program通过SparkContext对象访问SparkSparkContext对象代表和一个集合的连接在Shell中SparkContext自动创建好了，就是sc三、RDDResilient distributed dataset...

2018-05-24 14:11:41 323

转载 Hadoop Shell命令

FS Shell调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args>的形式。所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统，scheme是hdfs，对本地文件系统，scheme是file。其中scheme和authority参数都是可选的，如果未加指定，就会使用配置中指定...

2018-05-23 16:40:33 369

原创开发第一个Spark程序

WorldCount程序一、需求：对文本文件中的单词个数进行统计二、步骤： 1.创建一个Spark Context 2. 加载数据 3.把没一行分割成单词 4.转换成键值对并且计数。三、开发环境 IDEA+Maven, scala开发语言 ...

2018-05-23 16:39:27 6520

原创 Spark入门

一、Spark概述Apache Spark是一种闪电般的群集计算技术，专为快速计算而设计。它基于Hadoop MapReduce，它扩展了MapReduce模型以便将其用于更多类型的计算，其中包括交互式查询和流处理。Spark的主要特点是其内存集群计算，可提高应用程序的处理速度，Spark旨在涵盖各种工作负载，如批处理应用程序，迭代算法，交互式查询和流式处理。除了在各自的系统中支持所有这些工作...

2018-05-22 11:44:40 581

原创 Intellij IDEA中生成jar包

Intellij IDEA 为优秀的java开发环境，但是有很多人知道利用此工具可以编译成class文件，而不知道如何在intellij IDEA工具如何将所有的class打包成jar文件，现在将方法介绍如下：1.选择菜单File->Project Structure，将弹出Project Structure的设置对话框。2.选择左边的Artifacts后点击上方的“+”按钮3.在弹出的框中...

2018-05-22 09:04:23 212

原创 Kafka 生产实战

1.kafka安装地址：ICC-FIS-KAFKA：35上，配置文件：/data/kafka/config/server.properties 相关命令如下：(1) jps -m 查看系统中kafka在使用情况： 65841 ProdServerStart 60132 Jps -m 132028 Kafka config/server.properties(2)查看系统中已建立的topi...

2018-05-22 08:25:07 168

原创 Spark Streaming概述（1）

一、Spark Streming 概述Spark Streming是一个可扩展、高可靠、容错的一个流处理框架二、Spark Streaming特点低延时、容错、能够运行到成白上千的节点上、能够将批处理、机器学习、图计算等子框架和Spark Streaming综合起来使用三、Spark Streaming处理流程将不同的数据源的数据经过Spark Streaming处理后将结果输出到外部文件系统，如...

2018-05-21 23:14:03 516

原创 Flume和kafka的结合实战

1.修改flume的配置文档exec-memory-kafka.conf ，使用kafka sink# Name the components on this agenta1.sources = r1 #a1代表agent名称，r1:数据源的名称a1.sinks = k1 #k1 sink名称a1.channels = c1 #c1 channel名称# Describe/configu...

2018-05-21 22:50:11 1056

原创 Flume 生产配置

1.Flume安装位置：10.96.183.54： /home/hadoop/flume-1.7.0/2.配置文档：Aoi.propertiesaoi.channels = c1 aoi.sources = r1aoi.sinks = k1 aoi.sources.r1.type = spooldir aoi.sources.r1.channels = c1aoi.sources.r1.spo...

2018-05-21 14:59:16 486

原创 Maven

一、什么是Maven？Maven是基于项目对象模型（POM）,可以通过一小段信息来管理项目的构建、报告和文档的软件项目管理工具，可以帮助我们更高效的管理项目。二、Maven中央仓库网络地址https://repo.maven.apache.org/maven2/也可以在settings.xml中修改mirror中的镜像仓库值，连接其它的url例如；http://maven.aliyun.com/n...

2018-05-19 20:12:19 150

原创 Kafka 单节点多Broker部署及使用

吃

2018-05-15 20:04:11 2201

原创 .NET 通过ODBC连接Impala

1.在Cloudera官网上根据impala的版本下载对应的驱动：https://www.cloudera.com/downloads/connectors/impala/odbc/2-5-41.html2.安装ODBC驱动3.配置ODBC:注意：根据windows系统的版本，在对应的ODBC应用程序下配置数据库信息C:\Windows\System32或者C:\Windows\SysWOW64找...

2018-05-12 13:49:49 3359

转载 C#使用ODBC链接MySQL数据库

C#使用ODBC链接MySQL数据库2011年09月04日 22:06:18阅读数：16829C#使用ODBC链接MySQL数据库1、ODBC.NET（全称ODBC .NET Data Provider）是一个免费的.NET Framework附加组件，需要到微软公司的网站上去下载，下载地址为：http://download.microsoft.com/download/dasdk/Install...

2018-05-11 15:30:11 2187

转载 Impala和Hive的关系（详解）

Impala和Hive的关系（详解） Impala和Hive的关系　　Impala是基于Hive的大数据实时分析查询引擎，直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中。并且impala兼容Hive的sql解析，实现了Hive的SQL语义的子集，功能还在不断的完善中。与Hive的关系　　Impala 与Hive都是构建在Hadoo...

2018-05-10 10:55:33 3830

转载 Hive数据倾斜解决方法总结

Hive数据倾斜解决方法总结数据倾斜是进行大数据计算时最经常遇到的问题之一。当我们在执行HiveQL或者运行MapReduce作业时候，如果遇到一直卡在map100%,reduce99%一般就是遇到了数据倾斜的问题。数据倾斜其实是进行分布式计算的时候，某些节点的计算能力比较强或者需要计算的数据比较少，早早执行完了，某些节点计算的能力较差或者由于此节点需要计算的数据比较多，导致出现其他节...

2018-05-09 15:13:07 255

转载 hive异常记录

1.HIVE MapJoin异常问题摘要： HIVE被很广泛的使用，使用过程中也会遇到各种千奇百怪的问题。这里就遇到的MapJoin Local 内存不足的问题进行讨论，从问题描述、mapjion原理以及产生该问题的原因，解决方案做一下介绍，最后对该问题进行了进一步的思考，希望对解决该类问题的朋友有所帮助。问题描述在跑hive作业的时候，偶尔会遇到下面的异常 FAILED: Execution E...

2018-05-09 14:59:27 1767

原创 kafka概述

1.官网：https://kafka.apache.org/消息系统类似：消息中间件：生产者和消费者。Kafka架构：producer:生产者consumer:消费者broker:块、篮子topic：主题，给消息打标签。Kafka部署和使用：1.单节点单broker部署使用2.单节点多broker部署使用3.多节点多broker部署使用kafka依赖zookeeper，首先需要安装zookeepe...

2018-05-08 23:01:59 174

fengfengchen95的博客