FAN15378785757-CSDN博客

转载 linux zip命令使用

1.压缩文件zip -r result.zip /data/*.* //将data这个目录下的所有文件进行压缩,并形成result.zip压缩文件2.分卷压缩文件zip -s 1g result.zip --out output //将result.zip这个压缩文件进行分卷,每个分卷大小为1g,最后输出的文件名为output.zip3.合并分卷文件cat outp...

2017-01-06 13:59:00 204

转载安装Impala

1.默认安装好hadoop并且能正常启动(只需hdfs即可)2.安装如下rpm包(需要root权限注意顺序) 　　bigtop-utils-0.7.0+cdh5.8.2+0-1.cdh5.8.2.p0.5.el6.noarch.rpm 　　impala-kudu-2.7.0+cdh5.9.0+0-1.cdh5.9.0.p0.11.el6.x86_64.rpm 　　impala-kudu...

2016-12-26 10:15:00 238

转载安装Kudu

1.默认安装好yum2.需以root身份安装3.安装ntp 　　yum install ntp -y4.启动ntp 　　/etc/init.d/ntpd start|stop|restart5.添加安装包yum源　　[cloudera-kudu] 　　# Packages for Cloudera's Distribution for kudu, Version 0, on RedHa...

2016-12-26 10:11:00 161

转载 flume+kafka+spark streaming整合

1.安装好flume2.安装好kafka3.安装好spark4.流程说明: 　　日志文件->flume->kafka->spark streaming 　　flume输入:文件　　flume输出:kafka的输入　　kafka输出:spark 输入5.整合步骤: 　　(1).将插件jar拷贝到flume的lib目录下　　　　a. flumeng-kafka-p...

2016-12-26 10:10:00 161

转载安装Kafka

1.默认安装好zookeeper和scala2.下载安装包,解压　　tar -zxvf kafka_2.11-0.9.0.1.tgz kafka_2.11-0.9.0.13.配置环境变量　　vim /etc/profile 　　#kafka 　　export KAFKA_HOME=/opt/kafka_2.11-0.9.0.1 　　export PATH=$PATH:$KAFKA_H...

2016-12-26 10:07:00 114

转载 DataFrame格式化

1.如果是格式化成Json的話直接 val rdd =df.toJSON.rdd2.如果要指定格式需要自定义函数如下://格式化具体字段条目def formatItem(p:(StructField,Any)):String={ 　　p match { 　　　　case (sf,a) => 　　　　　　sf.dataTyp...

2016-12-14 16:59:00 649

转载 RDD/Dataset/DataFrame互转

1.RDD -> Dataset val ds = rdd.toDS() 2.RDD -> DataFrame val df = spark.read.json(rdd) 3.Dataset -> RDD val rdd = ds.rdd 4.Dataset -> DataFrame val df = ds.toDF() 5.DataFrame -...

2016-12-14 15:12:00 91

转载多个jar包合并成一个jar包的办法

步骤:1.将多个JAR包使用压缩软件打开,并将全包名的类拷贝到一个临时目录地下.2.cmd命令到该临时目录下,此时会有很多.class文件,其中需要带完整包路径3.执行 jar -cvfM test.jar *.class .　　其中 test.jar 为生成目标 jar包 *.class 为需要使用的.class文件 . 表示输出jar包目录为当前路...

2016-06-30 20:13:00 623

转载 flume使用示例

flume的特点：flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用于收集数据;同时，Flume提供对数据进行简单处理，并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力。flume的数据流由事件(Event)贯穿始终。事件是Flume的基本数据单位，它携带日志数据(字节数组形式)并且携带有头信息，这些Ev...

2016-05-15 14:44:00 201

转载 ecplise + hadoop 调试环境搭建

1.需要安装包 1.1 hadoop源码包(hadoop-2.5.2-src.tar.gz) 1.2 hadoop 2X插件(hadoop2x-eclipse-plugin-master.zip) 1.3 hadoop windows 工具(hadoop-common-2.2.0-bin-master.zip) 1.4 ANT编译工具(apache-a...

2016-04-11 20:36:00 130

转载 web.xml文件加载顺序

1、启动一个WEB项目的时候，WEB容器会去读取它的配置文件web.xml，读取<listener>和<context-param>两个结点。 2、紧急着，容创建一个ServletContext（servlet上下文），这个web项目的所有部分都将共享这个上下文。 3、容器将<context-param>转换为键值对，并交给servletC...

2016-03-14 14:03:00 82

转载 Web.xml配置参数详解

1 定义头和根元素　　部署描述符文件就像所有XML文件一样，必须以一个XML头开始。这个头声明可以使用的XML版本并给出文件的字符编码。DOCYTPE声明必须立即出现在此头之后。这个声明告诉服务器适用的servlet规范的版本（如2.2或2.3）并指定管理此文件其余部分内容的语法的DTD(Document Type Definition，文档类型定义)。所有部署描述符文件...

2016-03-14 10:35:00 385

转载 Quartz定时调度框架

Quartz定时调度框架CronTrigger时间配置格式说明 CronTrigger时间格式配置说明 CronTrigger配置格式: 格式: [秒] [分] [小时] [日] [月] [周] [年] 序号说明是否必填允许填写的值允许的通配符 1 秒是 0-59, - * / 2 分是 0-59, - * / ...

2016-03-10 10:35:00 116

转载 Drools 查询学习

Drools 查询学习查询以 query 关键字开始，以 end 关键字结束，在 package 当中一个查询要有唯一的名称，查询的内容就是查询的条件部分，条件部分内容的写法与规则的 LHS 部分写法完全相同。1.无参数查询代码语法如下: query "query name" #conditions end 示例代码: query "testQuery" custo...

2016-03-02 14:17:00 141

转载 Drools 函数学习

Drools 函数学习函数是定义在规则文件当中一代码块，作用是将在规则文件当中若干个规则都会用到的业务操作封装起来，实现业务代码的复用，减少规则编写的工作量。函数的编写位置可以是规则文件当中 package 声明后的任何地方具体语法如下： function void/Object functionName(Type arg...) { /*函数体的业务代码*/ }示例代码： imp...

2016-03-02 14:17:00 106

转载 Drools 规则学习

Drools 规则学习在 Drools 当中，一个标准的规则文件就是一个以“.drl”结尾的文本文件，由于它是一个标准的文本文件，所以可以通过一些记事本工具对其进行打开、查看和编辑。规则是放在规则文件当中的，一个规则文件可以存放多个规则，除此之外，在规则文件当中还可以存放用户自定义的函数、数据对象及自定义查询等相关在规则当中可能会用到的一些对象。文件结构图如下: package im...

2016-03-02 14:15:00 190

转载 Drools API的使用学习

Drools API的使用学习在 Drools 当中，规则的编译与运行要通过 Drools 提供的各种 API 来实现，这些 API 总体来讲可以分为三类：规则编译、规则收集和规则的执行。完成这些工作的 API 主要有KnowledgeBuilder、KnowledgeBase、StatefulKnowledgeSession、StatelessKnowledgeSession1.K...

2016-03-02 14:14:00 300

转载安装DRools开发环境

1.下载相关安装包和开发插件　　网站:http://www.jboss.org/drools/downloads.html 　　1.1 drools-distribution-6.3.0.Final.zip 　　1.2 droolsjbpm-tools-distribution-6.3.0.Final.zip（eclipse开发插件）2.解压包3.打开Eclipse，单击“...

2016-03-02 14:13:00 147

转载数据库个人经验

1.尽量不在数据库中做运算2.控制单表数据量3.控制表身段苗条(字段数上限控制在20~50之间)4.平衡范式和冗余5.拒绝3B(大sql 大事务大批量)6.用好数值字段类型7.尽可能将字符转换为数字8.避免使用NULL字段9.少用并拆分TEXT/BLOB10.不在数据库中存图片11.谨慎合理添加索引12.不在索引列做运算13.自增列或...

2016-02-25 15:26:00 116

转载安装zeppelin

安装zeppelin1.默认安装好spark集群2.安装zeppelin 1.解压安装包 tar zxvf zeppelin-0.5.5-incubating-bin-all.tgz 2.配置环境变量 vim /etc/profile #zeppelin export ZEPPELIN_HOME=/opt/zeppelin-0.5....

2016-02-25 09:03:00 77

转载安装spark ha集群

安装spark ha集群 1.默认安装好hadoop+zookeeper2.安装scala 1.解压安装包 tar zxvf scala-2.11.7.tgz 2.配置环境变量 vim /etc/profile #scala export SCALA_HOME=/opt/scala-2.11.7 #CLASSPATH...

2016-02-01 10:37:00 123

转载安装ganglia

安装ganglia1.默认已经配置好相关的主机名和Ip地址映射关系2.默认已经安装好ssh密码登陆3.默认已经配置好yum源和相关网络配置(如hosts 可在墙外)4.服务器端安装(除了yum安装以外其他操作均需以hadoop或者普通用户权限操作) 1.安装相关依赖包 yum -y install zlib libpng jpeg fre...

2016-01-27 09:35:00 133

转载 windows下指定格式文件转移

#放在目录下执行 1.bat 作用:将该目录下所有mp4格式的文件转移至该目录下的target目录下须保证target目录不存在@echo offmd target\for /f "delims=" %%a in ('dir /a-d/b/s *.mp4') do move %%~fsa target\echo end...pause转载于:htt...

2016-01-26 21:44:00 204

转载安装maven编译环境

安装maven编译环境1.默认已经装好yum并配置好yum源(推荐使用163yum源)2.安装JDK3.安装相关依赖环境(root用户登陆) yum install -y cmake lzo-devel zlib-devel gcc gcc-c++ autoconf automake libtool ncurses-devel openssl-devel l...

2016-01-20 10:15:00 147

转载安装HBase

安装HBase1.默认已经安装好java+hadoop+zookeeper2.下载对应版本的HBase3.解压安装包 tar zxvf hbase-1.0.2-bin.tar.gz4.配置环境变量(/etc/profile) #hbase export HBASE_HOME=/opt/hbase-1.1.2 export PATH...

2016-01-19 10:01:00 74

转载安装sqoop

安装sqoop1.默认已经安装好java+hadoop2.下载对应hadoop版本的sqoop版本3.解压安装包 tar zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz4.配置环境变量(/etc/profile) #sqoop export SQOOP_HOME=/opt/sqoop ...

2016-01-19 09:58:00 78

转载安装Hive(独立模式使用mysql连接)

安装Hive(独立模式使用mysql连接)1.默认安装了java+hadoop2.下载对应hadoop版本的安装包3.解压安装包 tar zxvf apache-hive-1.2.1-bin.tar.gz4.安装mysql yum -y install mysql-server mysql mysqldev //需要以root身份运行另外可能需要...

2016-01-19 09:57:00 139

转载安装hadoop+zookeeper ha

安装hadoop+zookeeper ha前期工作配置好网络和主机名和关闭防火墙chkconfig iptables off //关闭防火墙1.安装好java并配置好相关变量 (/etc/profile)#javaexport JAVA_HOME=/usr/java/jdk1.8.0_65export JRE_HOME=$JAVA_HOME/jreex...

2016-01-19 09:56:00 114

转载 06.创建型————原型模式

package Create.e.Prototype;//原型业务类需要实现克隆接口public class Dog implements Cloneable{ public int legCounts; public Dog(int legCounts){ this.legCounts = legCounts; } public void ch...

2016-01-03 14:55:00 63

转载 05.创建型————单例模式

单例模式分为两种，懒汉式和饿汉式。区别在于创建实例的时机。饿汉式在该类加载时创建实例，懒汉式则在需要获取时才进行创建。package Create.f.Singleton;public class Singleton { private Singleton(){ } protected static Singleton getInstance(){...

2016-01-02 21:32:00 62

转载 04.创建型————创建者模式

package Create.d.Builder;//业务接口public interface Tax { void calcTax();}　　package Create.d.Builder;//业务接口public interface Salary { void calcSalary();}　　pac...

2016-01-02 21:20:00 71

转载 03.创建型————抽象工厂模式

package Create.c.AbstractFactory;//业务接口public interface Salary { void calcSalary();}　　package Create.c.AbstractFactory;//业务接口public interface Tax { void calcTax();...

2016-01-02 21:12:00 63

转载 02.创建型————工厂方法模式

package Create.b.FactoryMethod;//业务接口public interface Salary { void calcSalary();}　　package Create.b.FactoryMethod;//业务实现类public class HeBeiSalary implements Salary {...

2016-01-02 20:30:00 72

转载 01.创建型————简单工厂模式

package Create.a.SimpleFactory;//业务接口public interface Salary { void calcSalary();}　　package Create.a.SimpleFactory;//业务实现类public class HeBeiSalary implements Salary { ...

2016-01-02 20:25:00 73

转载 HBase JavaAPI操作示例

package testHBase;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hado...

2015-12-20 20:27:00 107

转载 MongoDB

大数据第四天1.mongoDB数据库(NoSQL数据库) 1.1 安装(windows版本) a.下载链接 www.mongodb.org b.创建一个目录用于存放安装目录，解压安装包 c.创建一个目录用于存放数据 d.cd到安装目录进入bin 执行 mongod.exe --dbpath 数据目录全路径 e.配置环境变量 f.启动...

2015-12-05 20:48:00 95

转载大数据第三天

大数据第三天1.HBase————分布型数据库(NoSQL) 1.表存储管理数据 2.行键类似关系型数据库中的主键 HBase自带一般为查询比较多的列 3.列族列的集合在定义表时指定的 4.时间戳列的一个属性如果不指定时间戳，默认取最新的数据 5.优点 1.海量数据秒级简单查询 2.并行查询 6.特殊表 -...

2015-12-03 21:56:00 68

转载 Zookeeper操作

Zookeeper操作注意搭建： 1.集群规模不小于3个节点 2.服务器之间系统时间要保持一致1.搭建步骤： 1.解压安装包 2.设置zookeeper环境变量 3.修改配置文件————zoo.cfg 修改dataDir=/usr/local/zk/data 新增server.0=hadoop0:2888:3888 server.1...

2015-12-02 15:44:00 84

转载 MR操作

MR操作————Map、Partitioner、Shuffle、Combiners、Reduce1.Map步骤 1.1 读取输入文件，解析成k-v对，其中每个k-v对调用一次map函数 1.2 写自己的逻辑，对输入的k-v进行处理，转换成新的k-v 1.3 对输出的k-v进行分区(Partitioner) 1.4 对不同分区的数据进行排序/分组，将相同的key的v...

2015-12-01 11:46:00 230

转载 HDFS操作

HDFS操作1.shell 1.1 创建目录 hadoop fs -mkdir 目录名(其中/为根目录) 1.2 遍历目录 hadoop fs -ls 目录名 1.3 删除目录 hadoop fs -rmr 目录名 1.4 修改目录 hadoop fs -mv 原目录目标目录 1.5 上传文件 hadoop fs -pu...

2015-11-30 13:41:00 73

空空如也

空空如也