自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

dream

即使是不成功的尝试,也胜于胎死腹中的策略!

  • 博客(37)
  • 问答 (6)
  • 收藏
  • 关注

原创 1.Sqoop入门学习

一.Sqoop简介Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。sqoop主要通过JDBC和关系数据库进行交互。理论上支持JDBC的d

2017-06-28 14:36:14 787

原创 3.shell脚本知识点学习二

一.echo命令echo 指令都是用于字符串的输出。命令格式:echo "It is a test"1.1显示换行echo -e "OK! \n" # -e 开启转义 \n换行echo "It it a test"1.2.显示不换行echo -e "OK! \c" # -e 开启转义 \c 不换行echo "It is a test"1.3显示结

2017-06-20 15:51:10 486

原创 2.shel脚本l知识点学习一

一、shell变量1.定义变量:your_name="runoob.com"注:变量名和等号之间不能有空格2.使用变量使用一个定义过的变量,只要在变量名前面加美元符号即可,下边两种都可以,推荐给所有变量加上花括号,这是个好的编程习惯。your_name="qinjx"echo $your_nameecho ${your_name}(已定义的变量,可以被重

2017-06-20 15:09:34 846

原创 1.shell脚本入门学习

一、shell入门介绍Shell 是一个用 C 语言编写的程序,它是用户使用 Linux 的桥梁。Shell 既是一种命令语言,又是一种程序设计语言。Shell 是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务。Linux 的 Shell 种类众多,常见的有:Bourne Shell(/usr/bin/sh或/bin/sh)、Bo

2017-06-20 14:39:24 475

转载 HBase性能优化方法总结

本文主要是从Hbase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,这里涉及的不多,这部分可以参考:淘宝Ken Wu同学的博客。1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才

2017-03-20 15:23:32 562

原创 4.Spark Streaming学习

目前的大数据处理可以分为如以下三个类型。 复杂的批量数据处理(batch data processing),通常的时间跨度在数十分钟到数小时之间。基于历史数据的交互式查询(interactive query),通常的时间跨度在数十秒到数分钟之间。基于实时数据流的数据处理(streaming data processing),通常的时间跨度在数百毫秒到数秒之间。 所以说流式处理是

2017-03-18 14:41:46 1188

原创 3.SparkSQL学习

sparkSQL的发展历程。A:hive and shark      sparkSQL的前身是shark。在hadoop发展过程中,为了给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,hive应运而生,是当时唯一运行在hadoop上的SQL-on-Hadoop工具。但是,MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O,降低的运行效率

2017-03-17 19:17:16 759

转载 2.Spark常用算子讲解

Spark的算子的分类   从大方向来说,Spark 算子大致可以分为以下两类:     1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。     Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。     2)Actio

2017-03-15 16:50:45 36147 4

原创 1.spark简介

1.什么是Spark并行计算框架基于内存计算高容错基于DAG2.Spark生态体系图MapReduce属于Hadoop生态体系之一,Spark则属于BDAS生态体系之一3.Spark VS MapReduce为什么Spark比MapReduce快:a.磁盘IO开销:Spark中间计算结果都是基于内存,节省开销;b.排序:Spark避免Ma

2017-03-14 08:01:29 512

原创 1.Flume简介

什么是flumeflume是apache的一个数据收集框架。定义了一个数据流的模型。下面这张图hadoop业务开发流程图可以说明Flume的重要性:Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。apache Flume 是一个从可以收集例如日志,

2017-03-10 21:07:06 2054

原创 2.Redis持久化

1.Redis持久化方式RDB(Redis DB):真正的将数据以文件形式持久化到磁盘AOF(AppendOnlyFile):存储命令(对库操作时的所有命令)默认不开启2.RDB持久化RDB持久化功能可以将服务器包含的所有数据以二进制文件的形式保存硬盘中。而通过在服务器启动时载入RDB文件,服务器可以读取整个RDB文件的内容、还原服务器原有的数据库数据。2.1redis

2017-03-08 21:36:51 717

原创 1.Redis简介

一.Redis简介redis(Remote Dictionary Server)是一种Nosql技术,是完全开源免费的,遵守BSD协议,使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。二.Redis特点运行在内存(速度快)支持数据持久化(数据可放入磁盘,重启加载即可)主从(借助于sentinel实现一定意义上的

2017-03-08 20:50:32 452

原创 4.Hbase基于java接口的简单示例

package com.test.hbase;import java.util.ArrayList;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hb

2017-03-03 14:47:10 491

原创 3.Hbase常用Shell操作示例

1.进入hbase命令行./hbase shell2.显示hbase中的表list3.create---------创建表,包含info、data两个列族create 'user', 'info1', 'data1'create 'user', {NAME => 'info', VERSIONS => '3'}4.put-----------向表中插入信息,#ro

2017-03-03 14:15:46 854

原创 2.Hbase集群的搭建

基于前边hadoop2.6.5集群上搭建的Hbase集群hbase版本为1.2.41.上传hbase安装包2.解压3.配置hbase集群,要修改3个文件(首先zk集群已经安装好了)3.1修改conf下的hbase-env.sh export JAVA_HOME=/usr/java/jdk1.7.0_55 //告诉hbase使用外部的zk export

2017-03-03 13:50:50 720

转载 1.Hbase简介及基本原理

一、   简介 history started by chad walters and jim 2006.11 G release paper on BigTable 2007.2 inital HBase prototype created as Hadoop contrib 2007.10 First u

2017-03-02 21:46:23 663

原创 4.MapReduce基本原理

mapreduce工作原理(1).客户端提交一个mr的jar包给JobClient(提交方式:hadoopjar ...)(2).JobClient通过RPC和RM进行通信,返回一个存放jar包的地址(HDFS)和jobId(3).client将jar包写入到HDFS当中(path = hdfs上的地址+ jobId)----------默认写10份,当程序结束后删除(4).开始提

2017-03-01 10:38:25 1845

原创 3.MapReduce高级接口编程(partitioner、sort、combiner)

Partitioner--分区主要作用就是将map的结果发送到相应的reduce。Partitioner组件可以让Map对Key进行分区,从而可以根据不同的key来分发到不同的reduce中去处理。如果需要定制partitioner也需要继承该类。HashPartitioner是mapreduce的默认partitioner。计算方法是which reducer=(key.hash

2017-03-01 08:54:21 684

原创 2.hadoop序列化及反序列化

概述序列化和反序列化就是结构化对象和字节流之间的转换,主要用在内部进程的通讯和持久化存储方面。1、什么是序列化? 将结构化对象转换成字节流以便于进行网络传输或写入持久存储的过程。 2、什么是反序列化? 将字节流转换为一系列结构化对象的过程。用途:1、作为一种持久化格式。 2、作为一种通信的数据格式。 3、作为一种数据拷贝、克隆机制。java序列化

2017-02-28 18:47:10 633

原创 1.MapReduce简介

什么是MapReduceMapReduce是一种编程模型,可用于数据处理的编程框架,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是它们的主要思想,都是从函数式编程语言里借来的,采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"

2017-02-27 10:07:56 1341

原创 3.hadoop之RPC通信简单介绍

RPC,即Remote Procdure Call,中文名:远程过程调用;lRPC——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。lRPC采

2017-02-27 10:06:51 410

原创 4.HDFs之java接口简单示例

HDFS是文件系统,就可以对其文件进行操作,比如说新建、删除、读取文件内容等操作。下面使用JAVA API对HDFS中的文件进行操作的过程。  对分HDFS中的文件操作主要涉及一下几个类:  Configuration类:该类的对象封转了客户端或者服务器的配置。  FileSystem类:该类的对象是一个文件系统对象,可以用该对象的一些方法来对文件进行操作。

2017-02-27 10:05:59 453

原创 3.HDFS之shell基本操作

FS Shell调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。URI格是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认sche

2017-02-27 10:04:49 399

原创 2.HDFS基本原理

一、HDFS架构1、NameNode2、DataNode3、Sencondary NameNode二、namenode1.是整个文件系统的管理节点。它维护着整个文件系统的文件目录树,文件/目录的元信息和每个文件对应的数据块列表。接收用户的操作请求。2.namenode保存元数据信息,文件包括:fsimage:元数据镜像文件。存储某一时段NameNode内存元

2017-02-27 10:03:52 712

原创 1.HDFS简介

什么是HDFSHadoop DISTRIBUTED FILE SYSTEM,简称HDFS,是一个分布式文件系统。它是谷歌的GFS提出之后出现的另外一种文件系统。它有一定高度的容错性,而且提供了高吞吐 量的数据访问,非常适合大规模数据集上的应用。HDFS 提供了一个高度容错性和高吞吐量的海量数据存储解决方案。HDFS是Apache Hadoop Core项目的一部分。HDFS

2017-02-27 10:03:17 775

原创 4.hadoop之Zookeeper——01.简介及基本配置说明

1.什么是ZookeeperZookeeper 是 Google 的 Chubby一个开源的实现,是 Hadoop 的分布式协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。 企业级应用系统中,随着企业系统变得越来越庞大臃肿,性能急剧下降。拆分系统是目前我们可选择的解决系统可伸缩性和性能问题的唯一行之有效的方法。但是拆分系统同时也带来了系统的复杂

2017-02-23 20:31:56 490

原创 2.hadoop集群搭建

一、集群搭建的前期准备1.1、修改Linux主机名vim /etc/sysconfig/networkNETWORKING=yesHOSTNAME=hadoop01 1.2、修改IP两种方式:第一种:通过Linux图形界面进行修改 进入Linux图形界面 -> 右键点击右上方的两个小电脑 -> 点击Edit connections -> 选中当前网络System eth

2017-02-22 22:26:17 525

原创 1.Hadoop初识

1.hadoop是什么WhatIs Apache Hadoop?TheApache™ Hadoop® project develops open-source software for reliable, scalable,distributed computing.Hadoop是一种以可靠、高效、可伸缩的方式,对大量数据进行分布式处理的软件框架。

2017-02-21 21:14:38 397

原创 linux常用命令——6.vim的使用

vi和vim都是Linux中的编辑器,不同的是vim比较高级,可以视为vi的升级版本,而且还有一些新的特性在里面,vim的这些优势主要体现在以下几个方面:1、多级撤消,按 u只能撤消上次命令,而在vim里可以无限制的撤消。2、易用性vi只能运行于unix中,而vim还可以运行于unix,windows,mac等多操作平台。3、语法加亮vim可以用不同的颜色来加亮你的代码。4、对vi

2017-02-17 15:59:18 595

原创 linux常用命令——5.系统管理命令

ps命令用来列出系统中当前运行的那些进程。。命令参数:a  显示所有进程c  显示进程的真实名称u  指定用户的所有进程实例:显示指定用户信息命令:ps -u rootkill命令用来终止指定的进程(terminate a process)的运行。 命令格式:kill[参数][进程号]命令功能:发送指定的信号到相应

2017-02-17 14:35:34 877

原创 linux常用命令——4.网络命令

一、Ifconfig命令用来获取网络接口配置信息,以及修改这些配置。命令格式:ifconfig[网络设备] [参数]命令参数:-up启动指定网络设备/网卡。-down关闭指定网络设备/网卡。-a显示全部接口信息-s显示摘要信息(类似于 netstat -i)使用实例:实例1:显示网络设备信息(激活状态的)命令:ifconfig输出

2017-02-16 16:30:04 380

原创 linux常用命令——3.文件打包压缩

什么是打包和压缩:打包是指将一大堆文件或目录变成一个总的文件;压缩则是将一个大的文件通过一些压缩算法变成一个小文件。在Linux中很多压缩程序只能针对一个文件进行压缩,这样当你想要压缩一大堆文件时,你得先将这一大堆文件先打成一个包(tar命令),然后再用压缩程序进行压缩(gzip bzip2命令)。linux下最常用的打包,压缩程序就是tar和gzip了,使用t

2017-02-15 15:50:53 1019

原创 linux常用命令——2.文件搜索命令

linux中常用的搜索命令:which  查看可执行文件的位置。whereis 查看文件的位置。 locate   配合数据库查看文件位置。find   实际搜寻硬盘查询文件名称。1、which命令在PATH变量指定的路径中,搜索某个系统命令的位置,并且返回第一个搜索结果。命令格式:which 可执行文件名称 例: [root@localhost ~]# w

2017-02-14 15:58:12 597

原创 linux常用命令——1.文件操作命令

1、ls列出目标目录中所有的子目录和文件。命令格式:ls [选项] [目录名]常用参数:a :所有信息,可看到隐藏文件,不包含权限信息l :list权限等所有信息i :inode类似于索引号2、cd切换当前目录命令格式:cd[目录名]规范说明:cd d 或 cd ~ 进入用户主目录;cd  - 返回

2017-02-14 14:17:23 451

原创 Java中几种数据类型的转化

Java各数据类型之间的转化 Java数据类型的转换一般分三种,分别是: (1). 简单数据类型之间的转换 (2). 字符串与其它数据类型的转换 (3). 其它实用数据类型转换

2016-02-24 20:55:26 824

原创 Struts2国际化详细配置说明

一.首先了解一下什么是国际化:   国际化的英文为Internationalization,所以它又称为I18n(internationalization的首末字符i和n,18为中间的字符数)。i18n支持多种语言,但是同一时间只能是英文和一种选定的语言,例如英文+中文、英文+德文、英文+韩文等等;为了使不同国家地区的人使用到适应他们环境和语言的软件或网站,国际化成为了Java的必要因素之一。

2016-02-18 18:00:54 9767

原创 表格排序——jQuery插件tablesorter的使用

Tablesorter 是一个用来直接在浏览器上对表格数据进行排序的jQuery插件,无需再次刷新页面,支持多种单元格数据类型,例如数值、字符串、日期和自定义排序。

2015-12-13 16:50:03 2904

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除