Trigl的博客

Less is more.

排序:
默认
按更新时间
按访问量

使用Flume+Kafka+SparkStreaming进行实时日志分析

每个公司想要进行数据分析或数据挖掘,收集日志、ETL都是第一步的,今天就讲一下如何实时地(准实时,每分钟分析一次)收集日志,处理日志,把处理后的记录存入Hive中,并附上完整实战代码1. 整体架构思考一下,正常情况下我们会如何收集并分析日志呢?首先,业务日志会通过Nginx(或者其他方式,我们是...

2017-05-24 15:33:29

阅读数:26147

评论数:3

使用Crontab定时执行Spark任务

今天的主要内容有: Linux下使用定时器crontab Linux下如何编写Perl脚本 在Java程序中调用Linux命令 实例:每天0点30分执行Spark任务 1. Linux下使用定时器crontab1、安装yum -y install vixie-cron ...

2017-03-15 16:54:40

阅读数:4274

评论数:1

hadoop、zookeeper、hbase、spark集群环境搭建

本文详细讲解如何搭建hadoop、zookeeper、hbase和spark的集群环境,这里我是在本地虚拟机上搭建的集群,但是和实际环境的配置差不多。我会从零开始搭建并且尽量写得详细,所以还会讲到很多配置linux环境的东西,希望大家不要烦,务必按照步骤一步步做下去。 本文主要讲了以下内容: L...

2016-09-13 09:44:53

阅读数:9336

评论数:2

Spring事务管理(详解+实例)

写这篇博客之前我首先读了《Spring in action》,之后在网上看了很多关于Spring事务管理的文章,具体参考文章如下: 1、将相应的接口依赖图理清出 2、将每个类的具体配置弄明白 3、将具体的配置给出来 4、给出具体的例子(一个声明式的一个编程式的)

2016-03-25 23:20:38

阅读数:37689

评论数:21

Protocol Buffers 了解一下?

本文是学习 Protocol Buffers 时做的笔记,内容来自官方文档,把其中的精华部分提炼出来做了一个总结。 什么是 protocol buffers Protocol buffers 是一种跨语言跨平台可扩展的序列化结构化数据的方式,常用于通信协议、数据存储等等。首先会定义数据...

2018-06-20 11:00:54

阅读数:8

评论数:0

DDIA 读书笔记——构建可靠的、可扩展和可维护的应用

17 年听说了这本神书 Designing Data-Intensive Applications,可以说这是一本全面讲解了大数据整个生态的百科全书,之前快速地看过前几章,感觉讲解地很系统而且通俗易懂,但是看到后面开始讲解更多细节性的内容慢慢地有点跟不上节奏了。作为一名数据从业人员感觉很有必...

2018-06-14 00:12:46

阅读数:99

评论数:0

使用 AWS Kinesis 收集流数据

Kinesis 是 AWS 的一项用于收集实时流数据的云服务,类似于 Kafka。Kinesis 收集到的数据可以用于多个方面,例如存到 S3,发到 EMR 作进一步数据分析等等。 Kinesis 的整体架构如下: Kinesis 的基本术语 Kinesis Data Strea...

2018-05-28 10:00:23

阅读数:277

评论数:0

Akka Study

Akka 用于构建高并发、分布式且具有容错机制的事件驱动型的应用,本文是 Scala Cookbook 一书中 Akka 部分内容的总结。 Akka Guide Actor 模型与线程比较,是一种高层次的抽象。说 “高层次的抽象”这句话,就意味着这个东西简单易用,你不需要考虑太多底...

2018-05-23 17:04:08

阅读数:99

评论数:0

Scala 的 Case Classes 和 Pattern Matching

本文将讲解 Scala 中无处不在的 case class 和 pattern matching,为什么要放在一起讲呢,因为 case class 一般就是和模式匹配一起使用,习惯了用这套组合拳以后就再也不想写 Java 代码了,use less code to show more! ...

2018-04-13 17:29:54

阅读数:109

评论数:0

Scala Implicit 详解

Implicit 是 Scala 中一个很重要的特性,开始学习 Scala 之前一直以为它和 Java 差不多,然而真的看一些 Scala 的源码时却发现并没有想象中那么简单,所以准备写几篇文章来详解 Scala 中异于 Java 的特性,就从 Implicit 开始吧。 在我看来,Impli...

2018-02-07 19:29:13

阅读数:1261

评论数:0

Learning Spark——client mode和cluster mode的区别

在使用spark-submit提交Spark任务一般有以下参数:./bin/spark-submit \ --class <main-class> \ --master <master-url> \ --deploy-mode <deploy-mode&g...

2017-06-09 19:10:51

阅读数:3616

评论数:1

Kafka安装与简介

今天来讲一下Kafka,它是一个消息队列,应用场景比较广泛。刚开始学习一门东西,咱们先不管它是干什么的,先跑起来才是正经,所以本文主要讲两点: 安装搭建Kafka 简单介绍下Kafka的原理和应用 1. 安装Kafka1.1 下载解压下载地址:http://kafka.apache.org/dow...

2017-05-23 11:01:51

阅读数:17025

评论数:1

Learning Spark——Spark连接Mysql、mapPartitions高效连接HBase

执行Spark任务免不了从多个数据源拿数据,除了从HDFS获取数据以外,我们还经常从Mysql和HBase中拿数据,今天讲一下如何使用Spark查询Mysql和HBase1. Spark查询Mysql内容主要参考官方文档:http://spark.apache.org/docs/latest/sq...

2017-05-20 16:12:46

阅读数:2703

评论数:0

Learning Spark——RDD常用操作

本文内容主要包括: 基本转换操作 键值对转换操作 行动操作 RDD支持两种操作:转换(Transformation)操作和行动(Action)操作。为什么会分为两种操作,这两种操作又有什么区别呢?我们先考虑一下平常我们使用的一些函数,举个例子Long.toString(),...

2017-04-27 17:33:57

阅读数:2050

评论数:0

Learning Spark——使用spark-shell运行Word Count

在hadoop、zookeeper、hbase、spark集群环境搭建 中已经把环境搭建好了,工欲善其事必先利其器,现在器已经有了,接下来就要开搞了,先从spark-shell开始揭开Spark的神器面纱。spark-shell是Spark的命令行界面,我们可以在上面直接敲一些命令,就像windo...

2017-04-27 11:20:29

阅读数:5905

评论数:1

Learning Spark——使用Intellij Idea开发基于Maven的Spark程序

本文主要讲解如何使用Idea开发Spark程序,使用Maven作为依赖管理,当然也可以使用SBT,但是由于一直写Java程序习惯用Maven了,所以这里使用Maven。1、下载安装Jdk、Scala、MaveJdk、Maven安装方法略过,搞Java的应该都会,这里讲一下Scala的安装,其实和J...

2017-04-20 18:08:37

阅读数:8425

评论数:1

数据仓库的架构与设计

公司之前的数据都是直接传到Hdfs上进行操作,没有一个数据仓库,趁着最近空出几台服务器,搭了个简陋的数据仓库,这里记录一下数据仓库的一些知识。涉及的主要内容有: 什么是数据仓库? 数据仓库的架构 数据仓库多维数据模型的设计 1. 什么是数据仓库1.1 数据仓库的概念官方定义...

2017-04-01 17:52:19

阅读数:20929

评论数:7

Hive快速入门

主要内容 Hive概述 Hive安装配置 数据类型和文件格式 HQL常用操作 1. Hive概述1.1 为什么使用HiveHadoop生态系统的诞生为高效快速地处理大数据带来曙光,但是需要写MapReduce或者Spark任务,入门门槛较高,需要掌握一门编程语言例如J...

2017-03-11 15:50:26

阅读数:2772

评论数:0

Hive安装配置

Hive是基于Hadoop的,安装Hadoop可以参考这里:hadoop、zookeeper、hbase、spark集群环境搭建 ,除此之外,还需要安装mysql用来存储Hive的元数据,下文将讲解mysql和hive的安装。 安装mysql5.6 1、

2017-02-15 20:34:31

阅读数:963

评论数:1

Hadoop双namenode配置搭建(HA)

配置双namenode的目的就是为了防错,防止一个namenode挂掉数据丢失,具体原理本文不详细讲解,这里只说明具体的安装过程。 Hadoop HA的搭建是基于Zookeeper的,关于Zookeeper的搭建可以查看这里 hadoop、zookeeper、hbase、spark集群环境搭建 ...

2017-02-14 17:31:10

阅读数:7258

评论数:5

提示
确定要删除当前文章?
取消 删除
关闭
关闭