关闭
当前搜索:

[置顶] 使用Flume+Kafka+SparkStreaming进行实时日志分析

每个公司想要进行数据分析或数据挖掘,收集日志、ETL都是第一步的,今天就讲一下如何实时地(准实时,每分钟分析一次)收集日志,处理日志,把处理后的记录存入Hive中,并附上完整实战代码1. 整体架构思考一下,正常情况下我们会如何收集并分析日志呢?首先,业务日志会通过Nginx(或者其他方式,我们是使用Nginx写入日志)每分钟写入到磁盘中,现在我们想要使用Spark分析日志,就需要先将磁盘中的文件上...
阅读(13577) 评论(3)

[置顶] 使用Crontab定时执行Spark任务

今天的主要内容有: Linux下使用定时器crontab Linux下如何编写Perl脚本 在Java程序中调用Linux命令 实例:每天0点30分执行Spark任务 1. Linux下使用定时器crontab1、安装yum -y install vixie-cron yum -y install crontabs2、启停命令service crond start...
阅读(2958) 评论(1)

[置顶] hadoop、zookeeper、hbase、spark集群环境搭建

本文详细讲解如何搭建hadoop、zookeeper、hbase和spark的集群环境,这里我是在本地虚拟机上搭建的集群,但是和实际环境的配置差不多。我会从零开始搭建并且尽量写得详细,所以还会讲到很多配置linux环境的东西,希望大家不要烦,务必按照步骤一步步做下去。 本文主要讲了以下内容: Linux系统的一些基础配置 安装jdk 配置SSH免登陆 hadoop的安装和配置 zookeeper集...
阅读(5879) 评论(1)

[置顶] Spring事务管理(详解+实例)

写这篇博客之前我首先读了《Spring in action》,之后在网上看了很多关于Spring事务管理的文章,具体参考文章如下: 1、将相应的接口依赖图理清出 2、将每个类的具体配置弄明白 3、将具体的配置给出来 4、给出具体的例子(一个声明式的一个编程式的)...
阅读(26255) 评论(15)

Learning Spark——client mode和cluster mode的区别

在使用spark-submit提交Spark任务一般有以下参数:./bin/spark-submit \ --class \ --master \ --deploy-mode \ --conf = \ ... # other options <application-jar...
阅读(1956) 评论(1)

Kafka安装与简介

今天来讲一下Kafka,它是一个消息队列,应用场景比较广泛。刚开始学习一门东西,咱们先不管它是干什么的,先跑起来才是正经,所以本文主要讲两点: 安装搭建Kafka 简单介绍下Kafka的原理和应用 1. 安装Kafka1.1 下载解压下载地址:http://kafka.apache.org/downloads,如0.10.1.0版本的Kafka下载wget http://apache.fayea.c...
阅读(1211) 评论(0)

Learning Spark——Spark连接Mysql、mapPartitions高效连接HBase

执行Spark任务免不了从多个数据源拿数据,除了从HDFS获取数据以外,我们还经常从Mysql和HBase中拿数据,今天讲一下如何使用Spark查询Mysql和HBase1. Spark查询Mysql内容主要参考官方文档:http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databasesSpar...
阅读(1947) 评论(0)

Learning Spark——RDD常用操作

本文内容主要包括: 基本转换操作 键值对转换操作 行动操作 RDD支持两种操作:转换(Transformation)操作和行动(Action)操作。为什么会分为两种操作,这两种操作又有什么区别呢?我们先考虑一下平常我们使用的一些函数,举个例子Long.toString(),这个转换是把Long类型的转换为String类型的。如果同样的事情在Spark中,是如何执行的呢?在Sp...
阅读(1647) 评论(0)

Learning Spark——使用spark-shell运行Word Count

在hadoop、zookeeper、hbase、spark集群环境搭建 中已经把环境搭建好了,工欲善其事必先利其器,现在器已经有了,接下来就要开搞了,先从spark-shell开始揭开Spark的神器面纱。spark-shell是Spark的命令行界面,我们可以在上面直接敲一些命令,就像windows的cmd一样,进入Spark安装目录,执行以下命令打开spark-shell:bin/spark-s...
阅读(3884) 评论(1)

Learning Spark——使用Intellij Idea开发基于Maven的Spark程序

本文主要讲解如何使用Idea开发Spark程序,使用Maven作为依赖管理,当然也可以使用SBT,但是由于一直写Java程序习惯用Maven了,所以这里使用Maven。1、下载安装Jdk、Scala、MaveJdk、Maven安装方法略过,搞Java的应该都会,这里讲一下Scala的安装,其实和Java差不多。首先下载:https://www.scala-lang.org/download/按步骤安...
阅读(6468) 评论(1)

数据仓库的架构与设计

公司之前的数据都是直接传到Hdfs上进行操作,没有一个数据仓库,趁着最近空出几台服务器,搭了个简陋的数据仓库,这里记录一下数据仓库的一些知识。涉及的主要内容有: 什么是数据仓库? 数据仓库的架构 数据仓库多维数据模型的设计 1. 什么是数据仓库1.1 数据仓库的概念官方定义数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。...
阅读(6431) 评论(3)

Hive快速入门

主要内容 Hive概述 Hive安装配置 数据类型和文件格式 HQL常用操作 1. Hive概述1.1 为什么使用HiveHadoop生态系统的诞生为高效快速地处理大数据带来曙光,但是需要写MapReduce或者Spark任务,入门门槛较高,需要掌握一门编程语言例如Java或者Scala。 我们长久以来习惯于传统的关系型数据库,并且结构化查询语言(SQL)相对来说也比...
阅读(1213) 评论(0)

Hive安装配置

Hive是基于Hadoop的,安装Hadoop可以参考这里:hadoop、zookeeper、hbase、spark集群环境搭建 ,除此之外,还需要安装mysql用来存储Hive的元数据,下文将讲解mysql和hive的安装。 安装mysql5.6 1、...
阅读(615) 评论(1)

Hadoop双namenode配置搭建(HA)

配置双namenode的目的就是为了防错,防止一个namenode挂掉数据丢失,具体原理本文不详细讲解,这里只说明具体的安装过程。 Hadoop HA的搭建是基于Zookeeper的,关于Zookeeper的搭建可以查看这里 hadoop、zookeeper、hbase、spark集群环境搭建 ,本文可以看做是这篇文章的补充。这里讲一下Hadoop配置安装。 配置Hadoop文件 需要修...
阅读(3877) 评论(4)

使用Nginx(OpenResty)转发域名到非80端口

今天我们来学习一个比较实际的技能,那就是如何让你在内网部署的Web工程可以通过外网访问呢?主要解决两个问题: 1、如何得到一个可用的域名 2、Web工程的端口一般是8080或8081等等的非80端口,如何访问域名的时候能转发到这些非80端口呢? 3、域名不可能只对应一个工程,这样太浪费了,如何将带不同后缀的域名指向不同的工程?例如:使www.example.com/work、www.exam...
阅读(2839) 评论(0)

Linux下创建Oracle的实例

使用oracle用户登录,或su到oracle用户 1、首先设置要创建的ORACLE的SIDexport ORACLE_SID=addb2、 创建相应目录mkdir -p $ORACLE_BASE/admin/addb/{a,b,c,u}dump mkdir -p $ORACLE_BASE/admin/addb/pfile mkdir -p $ORACLE_BASE/oradata/addb3、在...
阅读(9054) 评论(1)

web.xml中定义的Spring的XML配置文件启动顺序

在web.xml中定义的Spring的配置文件一般有两个: 1、Spring上下文环境的配置文件:applicationContext.xml contextConfigLocation classpath:applicatio...
阅读(5887) 评论(2)

JDBC连接超时问题

这两天遇到一个问题,早上来了登录我们的项目网站第一次登录总是登不上去,第二次就好了,我看了一下后台的报错信息是这样的: The last packet successfully received from the server was 57,704,088 milliseconds ago. The last packet sent successfully to the server...
阅读(6311) 评论(0)

Java工具箱之常见处理文件操作

这个工具类包含以下文件操作: 1、获取文件大小 2、将文件大小自动转换为以“B”、“K”、“M”、“G”为单位的的大小 3、复制文件 4、移动文件 5、删除文件 6、解压ZIP文件package com.trigl.util;import java.io.BufferedInputStream; import java.io.File; import java.io.FileInputS...
阅读(882) 评论(0)

Java工具箱之字符编码工具类

涉及到文件的字符编码问题一般需要知道两个内容: 1、文件本身的字符编码是什么? 2、如何将文件的字符编码集转换为另一种呢? 这个工具类就解决这两个问题package com.trigl.util;import java.io.BufferedInputStream; import java.io.BufferedReader; import java.io.BufferedWriter; im...
阅读(1067) 评论(0)

Java工具箱之配置文件加载类

这个工具类比较常见,用于加载项目中的配置文件如config.propertiespackage com.trigl.util;import java.io.IOException; import java.io.InputStream; import java.text.MessageFormat; import java.util.Properties;import org.apache.log4...
阅读(427) 评论(0)
72条 共4页1 2 3 4 下一页 尾页
    个人博客
    作为一只颜狗,csdn已经无法满足我了,想要获得更优秀的阅读体验的同学可以访问我的个人网站哦!
    白墨的博客 | Ink's Blog
    个人资料
    • 访问:277910次
    • 积分:3104
    • 等级:
    • 排名:第12954名
    • 原创:71篇
    • 转载:1篇
    • 译文:0篇
    • 评论:67条
    博客专栏
    最新评论