自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

冰河的专栏

关注【冰河技术】微信公众号,持之以恒,贵在坚持,每天进步一点点。。。...

原创 Scala之—— 一张图教你学Scala

转载请注明出处:https://blog.csdn.net/l1028386804/article/details/80870361

2018-06-30 21:50:02 347 0

原创 Scala之——编程实战

1. 项目概述1.1.需求目前大多数的分布式架构底层通信都是通过 RPC 实现的, RPC 框架非常多,比如前我们学过的 Hadoop 项目的 RPC 通信框架,但是 Hadoop 在设计之初就是为了运行长达数小时的批量而设计的,在某些极端的情况下,任务提交的延迟很高,所有 Hadoop 的 RP...

2018-06-30 15:52:14 955 0

原创 Scala之——高级特性

1. 高阶函数1.1.概念Scala 混合了面向对象和函数式的特性,我们通常将可以做为参数传递到方法中的表达式叫做函数。在函数式编程语言中,函数是“头等公民”,高阶函数包含:作为值的函数、匿名函数、闭包、柯里化等等。1.2.作为值的函数可以像任何其他数据类型一样被传递和操作的函数,每当你想要给算法...

2018-06-30 15:04:56 408 0

原创 Scala之——Actor编程(基于Scala2.10.x)

1. 什么是 Scala Actor1.1.概念Scala 中的 Actor 能够实现并行编程的强大功能,它是基于事件模型的并发机制, Scala 是运用消息(message)的发送、接收来实现多线程的。使用 Scala 能够更容易地实现多线程应用的开发。1.2.传统 java 并发编程与 Sca...

2018-06-30 13:05:47 578 1

转载 Scala之——Eclipse离线手动安装Scala插件

Scala的官方网站提供了开发Scala代码的IDE,但是很多人都有已经在使用的Eclipse,想要在现有Eclipse的基础上添加插件来进行开发。1、下载Eclipse的Scala插件。下载网址:http://scala-ide.org/download/current.html进去网址后,向下...

2018-06-30 10:53:46 4891 1

原创 Scala之——Scala编程基础

1. Scala 基础1.1.声明变量 package com.lyz.scala /** * Created by liuyazhuang */ object VariableDemo { def main(args: Array[String]) { //使用val定义的...

2018-06-28 19:10:37 219 0

原创 Linux之——CentOS6.5 切换桌面模式与命令行模式

iso:CentOS-6.5-x86_64-bin-DVD1.iso虚拟机软件:VMWare方法一:修改配置文件:/etc/inittab各选项含义如下:0:逐步终止进程模式,进程将有序的终止,关机时系统处于这个运行级别;1:单用户模式,用于系统维护,只有少数进程运行,大部分服务也不启动;2:多用...

2018-06-27 21:59:43 7871 0

转载 Hbase之——布隆过滤器BloomFilter

1、主要功能 提高随机读的性能 2、存储开销 bloom filter的数据存在StoreFile的meta中,一旦写入无法更新,因为StoreFile是不可变的。Bloomfilter是一个列族(cf)级别的配置属性,如果你在表中设置了Bloomfilter,那么HBase会在生成StoreFi...

2018-06-24 19:59:52 906 0

原创 HBase之—— Snapshot(快照)

HBase在0.94之后提供了Snapshot功能,一个snapshot其实就是一组metadata信息的集合,它可以将表恢复到以前的一个状态。snapshot并不是一份拷贝,它只是一个文件名的列表,并不拷贝数据。一个全的snapshot可以回滚到原来的表schema和创建snapshot之前的数...

2018-06-24 19:46:30 241 0

转载 Spark之——基于MLlib的机器学习

1. 简介MLlib 是Spark 中提供机器学习函数的库。它是专为在集群上并行运行的情况而设计的。MLlib 中包含许多机器学习算法,可以在Spark 支持的所有编程语言中使用,由于Spark基于内存计算模型的优势,非常适合机器学习中出现的多次迭代,避免了操作磁盘和网络的性能损耗。Spark 官...

2018-06-21 22:29:34 654 0

转载 Hadoop-2.7.1+Zookeeper-3.4.8+HBase-1.2.1+Hive-2.0.0完全分布式集群

网上有的hadoop,zookeeper,hbase,apache-hive相关文档,具体大家可以百度具体了解,本文不多做介绍,本文从最基本的环境搭建入手,纯环境搭建。搭建次环境唯一要考虑就是软件相互之间的兼容性,及服务器内存(最好大点,虚拟机2G以上),当然也可以...

2018-06-20 21:14:42 586 0

转载 HBase之——MapReduce构建HBase二级索引

import java.io.IOException; import java.util.HashMap; import java.util.Map; import java.util.Set; import org.apache.hadoop.conf.Configuration; impo...

2018-06-20 21:03:56 502 0

转载 Spark之——Spark Submit提交应用程序

本部分来源,也可以到spark官网查看英文版。 spark-submit 是在spark安装目录中bin目录下的一个shell脚本文件,用于在集群中启动应用程序(如*.py脚本);对于spark支持的集群模式,spark-submit提交应用的时候有统一的接口,不用太多的设置。 使用spark-s...

2018-06-19 21:44:36 17110 2

原创 HBase之——集群数据手动迁移方案

1、从源HBase集群中复制出HBase数据库到本地目录hadoop fs -get2、目标HBase导入hadoop fs -put3、修复.META.表hbase hbck -fixMeta4、重新分配数据到各RegionServerhbase hbck -fixAssignments...

2018-06-19 21:33:11 685 0

原创 Spark之——使用spark-submit部署应用(基于Spark 1.X)

例1: 提交 Python 应用bin/spark-submit my_script.py如果在调用 spark-submit 时除了脚本或 JAR 包的名字之外没有别的参数,那么这个 Spark 程序只会在本地执行。 当我们希望将应用提交到 Spark 独立集群上的时候,可以将独立集群的地址和希...

2018-06-19 19:40:57 259 0

原创 HBase之——协处理编程

为什么引入协处理器?HBase作为列数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执行求和、计数、排序等操作。比如,在旧版本(<0.92)的Hbase中,统计数据表的总行数,需要使用Counter方法,执行一次MapReduce Job才能得到。虽然HBase在数据存...

2018-06-18 23:10:24 436 0

原创 Linux之——udp端口测试连接

一、tenlnet测试tcp[root@test ~]# telnet 192.168.209.121 123 Trying 192.168.209.121… telnet: connect to address 192.168.209.121: Connection refused telnet...

2018-06-13 12:10:26 23544 3

原创 Hive之——Hive SQL优化

一、Hive优化目标在有限的资源下,提高执行效率二、Hive执行HQL——> Job——> Map/Reduce三、执行计划查看执行计划explain [extended] hql四、Hive表优化1、分区静态分区动态分区set hive.exec.dynamic.pa...

2018-06-08 23:45:15 10289 3

原创 Hive之——自定义函数UDAF

关于Hive自定义函数UDF的相关信息,请参考博文《Hive之——自定义函数》用户自定义聚合函数,用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题:UDF也可以提供输入多个参数然后输出一个结果的运算,比如加法运算add(3,5),add这个UDF需要实现U...

2018-06-06 22:51:12 1943 0

原创 Hive之——高级查询

一、查询操作group by、 order by、 join、 distribute by、 sort by、 cluster by、 union allorder by: 全局排序sort by:每个分组内部排序二、底层的实现MapReduce三、简单的聚合操作1、count计数count(*)...

2018-06-03 20:35:01 1441 0

原创 Hive之——表属性操作

1、修改表名alter table table_name rename to new_table_name;2、修改列表alter table table_name change column c1 c2 int comment 'xxxx'; alter severity; ...

2018-06-02 20:08:48 1246 0

原创 Hive之——数据导出

一、导出的方式1、Hadoop命令方式get    hadoop fs -get hdfs://liuyazhuang121:9000/user/hive/warehouse/lyz.db/test_p/st=20180602/datatext    hadoop fs -text hdfs://...

2018-06-02 19:59:36 790 0

原创 Hive之——数据操作

一、Hive基本使用——查询基本语法select [all | distinct] select_expr, select_expr, ... from tablename [where where_condition]二、实例1、hive命令行执行select * from lyz;2、linu...

2018-06-02 19:55:51 333 0

原创 Hive之——Hive表操作

一、Hive基本使用——数据类型1、基本数据类型tinyint, smallint, int, bigint, boolean, float, double, string, binary, timestamp, decimal, char, varchar, date2、集合类型array: a...

2018-06-02 14:14:24 2085 0

转载 大数据杂谈之——HIVE和HBASE区别

1. 两者分别是什么?    Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--...

2018-06-01 21:04:14 608 0

提示
确定要删除当前文章?
取消 删除