- 博客(40)
- 资源 (31)
- 收藏
- 关注
原创 Kafka 笔记
配置环境变量KAFKA_HOME 和 path 想创三个副本的topic上面还需要开启一个服务server-3核心部分:第一条后面是:并缓存以及清理到磁盘第九条:并能够通过zk的watcher callback机制实时进行更新每台上的broker.id不同即可,上面zk的连接用逗号分隔
2017-11-29 17:59:44 296
原创 Hive优化
优化手段合理控制Map和Reduce数合并小文件避免数据倾斜,解决数据倾斜减少job数(合并Job、大Job分拆……) 一、 Map数和Reduce数Hive官方:https://cwiki.apache.org/confluence/display/Hive/Home 1.1、Map数Map数过大 Map阶段输出文件太小,产生大量小文件...
2017-11-29 16:13:56 336
原创 flume 自定义source,sink,channel,拦截器
按照以往的惯例,还是需求驱动学习,有位网友在我的flume学习五中留言提了一个问题如下:我想实现一个功能,就在读一个文件的时候,将文件的名字和文件生成的日期作为event的header传到hdfs上时,不同的event存到不同的目录下,如一个文件是a.log.2014-07-25在hdfs上是存到/a/2014-07-25目录下,a.log.2014-07-26存到/a/2014-07-2
2017-11-29 11:57:37 3209
原创 Flume 笔记
$>flume-ng avro-client -H localhost -p 4141 -F /xxx(文件) 上面出错改成这个 $>flume-ng agent -z s101:2181,s102:2181 -p /flume --name a1 -Dflume.root.logger=INFO,console通过这个连接:$>flume
2017-11-28 19:03:21 464
原创 R语言笔记
得到连接时还要制定账号密码:coon RMysql包是一个不错的工具。简单示例1:install.packages("RMySQL")library(RMySQL)conn <- dbConnect(MySQL(), dbname = "test1", username="root", password="123456", host="127.0.0.1"
2017-11-28 11:16:26 1480
原创 Hbase原理
HBase是Apache Hadoop中的一个子项目,Hbase依托于Hadoop的HDFS作为最基本存储基础单元,通过使用hadoop的DFS工具就可以看到这些这些数据存储文件夹的结构,还可以通过Map/Reduce的框架(算法)对HBase进行操作一、 hbase架构 1.概述。HBase是Apache Hadoop的数据库,能够对大型数据提供随机、实时的读写访问。
2017-11-27 19:44:48 587
原创 Hive技术原理解析
什么是Hive? Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapp
2017-11-27 19:40:08 9123 1
原创 HBase - Filter - 过滤器的介绍以及使用
1 过滤器HBase 的基本 API,包括增、删、改、查等。增、删都是相对简单的操作,与传统的 RDBMS 相比,这里的查询操作略显苍白,只能根据特性的行键进行查询(Get)或者根据行键的范围来查询(Scan)。HBase 不仅提供了这些简单的查询,而且提供了更加高级的过滤器(Filter)来查询。1.1 过滤器的两类参数过滤器可以根据列族、列、
2017-11-24 15:07:53 15336
原创 Hbase shell 常用命令
下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBase Shell命令,如下:名称命令表达式创建表create '表名称', '列名称1','列名称2','列名称N'添加记录 put '表名称', '行名称', '列名称:', '值'
2017-11-24 14:13:22 461
原创 Hive Shell常用操作
Hive的hql命令执行方式有三种:1、CLI 方式直接执行2、作为字符串通过shell调用hive –e执行(-S开启静默,去掉”OK”,”Time taken”)3、作为独立文件,通过shell调用 hive –f或hive –i执行执行1234方式1键入“hive”,启动hive的cli交互模式。Set可以查看所有环境设置参数,并可以重设。其他命令如, Use
2017-11-24 14:09:12 13162
转载 java实现记事本之Java记事本源码及实现
今天给大家介绍一下关于如何用Java实现记事本功能,是学习Java swing的一个非常好的案例,下面先看一下运行结果(下载地址在最下面):下面我们来看源码:[java] view plain copy import java.awt.*; import java.awt.event.*; import j
2017-11-22 08:58:18 47750 19
原创 ZooKeeper的安装与部署 zk遍历所有子节点树
.安装zookeeper集群1.在s100上面上传zk压缩包>cp /mnt/hgfs/BigData/第九天/zookeeper-3.4.10.tar.gz /data/解压>cd /data>tar -xzvf zookeeper-3.4.10.tar.gz 2.发送到其他节点>xsync /data/zookeeper-3.4.10 3.配置环境[
2017-11-21 20:23:24 3109
原创 HBase 常用操作
hbase只支持行级事务,不支持多行事务。进入shell:hbase shell:配置完分布式zk后:单启Hmaster:hbase-daemon.sh start masterHFile默认是十亿字节进行拆分 hbase是版本化数据库...
2017-11-21 20:05:25 3036 1
原创 HBase(0.96以上版本)过滤器Filter详解及实例代码
目录:引言 -- 参数基础1. 结构(Structural)过滤器--FilterList2.列值过滤器--SingleColumnValueFilter 2.1.第一种构造函数情况 -- 比较的关键字是字符数组 2.2.第二种构造函数情况 -- 比较的关键字是比较器ByteArrayComparable3.键值元数据
2017-11-21 20:03:13 254
原创 maven安装和eclipse集成以及Maven之setting.xml配置文件详解
setting.xml配置文件maven的配置文件settings.xml存在于两个地方:1.安装的地方:${M2_HOME}/conf/settings.xml2.用户的目录:${user.home}/.m2/settings.xml前者又被叫做全局配置,对操作系统的所有使用者生效;后者被称为用户配置,只对当前操作系统的使用者生效。如果两者都存在,它们的内容将被合
2017-11-21 09:21:40 27102
原创 Hadoop入门案例 全排序之TotalOrderPartitioner工具类+自动采样
代码package com.myhadoop.mapreduce.test;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import
2017-11-20 20:41:58 2031
原创 Python API 操作Hadoop hdfs
http://pyhdfs.readthedocs.io/en/latest/1:安装 由于是windows环境(linux其实也一样),只要有pip或者setup_install安装起来都是很方便的>pip install hdfs 2:Client——创建集群连接> from hdfs import * > client = Client("ht
2017-11-20 20:23:22 12278 2
原创 SQL语句中,为什么where子句不能使用列别名,而order by却可以?
当我们使用某个表达式作为输出的一列时,我们无法再Where条件中直接使用该列作判断条件. 例如下面的SQL语句:select id, (c1 + c2) as s from t1 where s > 100 SQL Server 报错: "列名 s 无效" 当然,写成 select id, (c1 + c2) as s from t1 whe
2017-11-20 10:59:34 3557 3
原创 hive动态分区
实验目的1. 验证对分区表进行动态分区插入功能2. 验证是否可以使用load进行动态分区插入实验步骤1. 在本地文件/home/grid/a.txt中写入以下4行数据:aaa,US,CAaaa,US,CBbbb,CA,BBbbb,CA,BC2. 建立非分区表并加载数据[sql] view plain copy
2017-11-20 09:54:39 2135
原创 MR 运行原理
1、Map-Reduce的逻辑过程假设我们需要处理一批有关天气的数据,其格式如下:按照ASCII码存储,每行一条记录每一行字符从0开始计数,第15个到第18个字符为年第25个到第29个字符为温度,其中第25位是符号+/-0067011990999991950051507+0000+0043011990999991950051512+0022+
2017-11-17 14:58:23 12041
原创 SQL语言的分类
二. SQL语言的分类SQL语言共分为四大类:数据查询语言DQL,数据操纵语言DML,数据定义语言DDL,数据控制语言DCL。1. 数据查询语言DQL数据查询语言DQL基本结构是由SELECT子句,FROM子句,WHERE子句组成的查询块:SELECT FROM WHERE 2 .数据操纵语言DML数据操纵语言DML主要有三种形式:1) 插入:I
2017-11-16 20:56:17 480
转载 Python标准库(非常经典的各种模块介绍)
0.1. 关于本书0.2. 代码约定0.3. 关于例子0.4. 如何联系我们核心模块1.1. 介绍1.2. _ _builtin_ _ 模块1.3. exceptions 模块1.4. os 模块1.5. os.path 模块1.6. stat 模块1.7. string 模块1.8. re 模块1.9. math 模块1.10.
2017-11-16 15:21:19 6322 1
原创 Avro笔记 Avro:MapReduce应用 谷歌的 protobuf
Apache Avro框架提供:丰富的数据类型(原始类型和复杂类型)紧凑、快速的二进制文件格式(.avro)一种容器文件,用于存储avro数据RPC容易与动态语言集成,无需生成代码。代码生成作为一种优化,只有在静态语言中使用才有价值。下面是一个Avro MapReduce的实例,MapReduce作业统计Avro文件中的数据。Avro文件中的对象Schema如下:{"names
2017-11-16 08:43:26 500
原创 Java - NIO之Channel(FileChannel)
一、关于Channel Java NIO的通道(Channel)类似流,但又有些不同: 既可以从通道中读取数据,又可以写数据到通道。但流的读写通常是单向的。 通道可以异步地读写。 通道中的数据总是要先读到一个Buffer,或者总是要从一个Buffer中写入。 Java NIO中最重要的通道的实现
2017-11-13 16:57:18 322
原创 Builder模式
模式动机无论是在现实世界中还是在软件系统中,都存在一些复杂的对象,它们拥有多个组成部分,如汽车,它包括车轮、方向盘、发动机等各种部件。而对于大多数用户而言,无须知道这些部件的装配细节,也几乎不会使用单独某个部件,而是使用一辆完整的汽车,可以通过建造者模式对其进行设计与描述,建造者模式可以将部件和其组装过程分开,一步一步创建一个复杂的对象。用户只需要指定复杂对象的类型就可以得到该对象,而无须
2017-11-13 10:04:19 164
转载 c3p0三种配置方式
c3p0的配置方式分为三种,分别是1.setters一个个地设置各个配置项2.类路径下提供一个c3p0.properties文件3.类路径下提供一个c3p0-config.xml文件1.setters一个个地设置各个配置项这种方式最繁琐,形式一般是这样:01Properties props = new Properties();
2017-11-13 09:46:40 606
原创 大数据hadoop 面试经典题
1.从前到后从你教育背景(学过哪些课)到各个项目你负责的模块,问的很细(本以为他是物理学博士,但是所有的技术都懂)2.hadoop 的 namenode 宕机,怎么解决先分析宕机后的损失,宕机后直接导致client无法访问,内存中的元数据丢失,但是硬盘中的元数据应该还存在,如果只是节点挂了,重启即可,如果是机器挂了,重启机器后看节点是否能重启,不能重启就要找到原因修复了。但是最终的解决方案应...
2017-11-10 14:21:57 7490 3
原创 URI与URL区别
URL 与 URI很多人会混淆这两个名词。URL:(Uniform/Universal Resource Locator 的缩写,统一资源定位符)。URI:(Uniform Resource Identifier 的缩写,统一资源标识符)(代表一种标准)。关系:URI 属于 URL 更高层次的抽象,一种字符串文本标准。就是说,URI 属于父类,而 U
2017-11-10 08:51:03 256
原创 shell中$*与$@的区别
shell中$*与$@的区别$*所有的位置参数,被作为一个单词.注意:"$*"必须被""引用.$@与$*同义,但是每个参数都是一个独立的""引用字串,这就意味着参数被完整地传递,并没有被解释和扩展.这也意味着,每个参数列表中的每个参数都被当成一个独立的单词.注意:"$@"必须被引用.$@ $* 只在被双引号包起来的时候才会有差异双引号
2017-11-10 08:44:10 751
原创 Hadoop数据本地化
首先需要知道,hadoop数据本地化是指的map任务,reduce任务并不具备数据本地化特征。 通常输入的数据首先将会分片split,每个分片上构建一个map任务,由该任务执行执行用户自定义的map函数,从而处理分片中的每条记录。 那么切片的大小一般是趋向一个HDFS的block块的大小。为什么最佳的分片大小是趋向HDFS块的大小呢?是因为这样能够确保单节点上最大输入块
2017-11-08 09:43:00 2767
原创 linux-mysql Access denied for user 'root'@'localhost'
这两天在MyEclipse中开发Web项目时,连接MYSQL数据库,出现问题:Access denied for user 'root'@'localhost'(using password:YES)。 经查找资料发现是root帐户默认不开放远程访问权限,所以需要修改一下相关权限。 解决方案:打开MySQL目录下的my.ini文件,在文件的最
2017-11-07 21:28:01 763
原创 hadoop FileInputFormat.addInputPaths兼容FileInputFormat.setInputPath
写MR过程中经常会遇到多个源路径的输入,我们可以在MR程序主函数中通过FileInputFormat.addInputPaths(job,args[0])方法来实现,args[0]可以是folder1或者folder1,folder2只要以逗号分隔就可以了。这样在执行MR的时候,输入会将多个源路径全部多为map输入进行执行。另外一种实现单输入的方法(只支持一
2017-11-03 21:03:43 4195
原创 yarn ResourceManager
阅读本文首先知道什么是YARN,如果不清楚,可以查看为什么会产生yarn,它解决了什么问题,有什么优势如题:为什么会产yarn,它解决了什么问题,有什么优势?简单来讲是因为Mrv1的缺陷,产生yarn。下面详细介绍Hadoop 和 MRv1 简单介绍Hadoop 集群可从单一节点(其中所有 Hadoop 实体都在同一个节点上运行)扩展到数千个节点(其中的功能分散在各个节点之
2017-11-02 17:17:07 728
原创 Java-Enumeration总结
Enumeration(枚举)接口的作用和Iterator类似,只提供了遍历Vector和HashTable类型集合元素的功能,不支持元素的移除操作。Java8中Enumeration接口的源码:public interface EnumerationE> {/** * Tests if this enumeration contains more elemen
2017-11-02 11:17:35 279
原创 Java集合之Vector
Vector是矢量队列,它继承了AbstractList,实现了List、 RandomAccess, Cloneable, java.io.Serializable接口。Vector接口依赖图:Vector继承了AbstractList,实现了List,它是一个队列,因此实现了相应的添加、删除、修改、遍历等功能。Vector实现了RandomAccess接口,因此可以
2017-11-02 11:16:56 212
原创 SequenceInputStream合并流
SequenceInputStreampublic SequenceInputStream(EnumerationInputStream> e)通过记住参数来初始化新创建的 SequenceInputStream,该参数必须是生成运行时类型为 InputStream 对象的 Enumeration 型参数。将按顺序读取由该枚举生成的输入流,以提供从此 SequenceInputStre
2017-11-02 11:14:08 294
原创 SequenceFile & MapFile
SequenceFileHadoop的SequenceFile适合记录二进制类型的数据,为二进制key - Value对提供了一个持久数据结构 SequenceFile作为日志文件的存储格式时,使用者可以直接选择Key和Value SequecneFile也可以作为小文件的容器,将小文件进行包装,从而获得更高效率的存储和处理SequenceFile的写操作命令行
2017-11-02 10:45:06 377
原创 Java序列化与反序列化
Java序列化与反序列化是什么?为什么需要序列化与反序列化?如何实现Java序列化与反序列化?本文围绕这些问题进行了探讨。 1.Java序列化与反序列化 Java序列化是指把Java对象转换为字节序列的过程;而Java反序列化是指把字节序列恢复为Java对象的过程。 2.为什么需要序列化与反序列化 我们知道,当两个进程进行远程通信时,可以相互发送各种类型的数据,包括
2017-11-02 09:33:22 193
原创 maven 实用插件以及搭建本地仓库服务器
maven的安装与maven本地仓库的搭建过程maven的安装----------------------- 1.下载并解压apache-maven-3.3.9-bin.tar.gz到/soft下. 2.创建符号连接 $>cd /soft $>
2017-11-01 09:55:54 1542 1
hadoop-eclipse-plugin
2017-10-23
hadoop_dll_winutil_2.7.1.zip
2017-10-20
机器学习实战
2017-10-11
python基础教程
2017-10-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人