- 博客(25)
- 资源 (131)
- 收藏
- 关注
原创 Scala之—— 一张图教你学Scala
转载请注明出处:https://blog.csdn.net/l1028386804/article/details/80870361
2018-06-30 21:50:02 1043
原创 Scala之——编程实战
1. 项目概述1.1.需求目前大多数的分布式架构底层通信都是通过 RPC 实现的, RPC 框架非常多,比如前我们学过的 Hadoop 项目的 RPC 通信框架,但是 Hadoop 在设计之初就是为了运行长达数小时的批量而设计的,在某些极端的情况下,任务提交的延迟很高,所有 Hadoop 的 RPC 显得有些笨重。Spark 的 RPC 是通过 Akka 类库实现的, Akka 用 Scala 语...
2018-06-30 15:52:14 1881
原创 Scala之——高级特性
1. 高阶函数1.1.概念Scala 混合了面向对象和函数式的特性,我们通常将可以做为参数传递到方法中的表达式叫做函数。在函数式编程语言中,函数是“头等公民”,高阶函数包含:作为值的函数、匿名函数、闭包、柯里化等等。1.2.作为值的函数可以像任何其他数据类型一样被传递和操作的函数,每当你想要给算法传入具体动作时这个特性就会变得非常有用。 定义函数时格式:val 变量名= (输入参数类型和个数) =...
2018-06-30 15:04:56 1052
原创 Scala之——Actor编程(基于Scala2.10.x)
1. 什么是 Scala Actor1.1.概念Scala 中的 Actor 能够实现并行编程的强大功能,它是基于事件模型的并发机制, Scala 是运用消息(message)的发送、接收来实现多线程的。使用 Scala 能够更容易地实现多线程应用的开发。1.2.传统 java 并发编程与 Scala Actor 编程的区别 对于Java,我们都知道它的多线程实现需要对共享资源(变量、对象等)使...
2018-06-30 13:05:47 1446 1
转载 Scala之——Eclipse离线手动安装Scala插件
Scala的官方网站提供了开发Scala代码的IDE,但是很多人都有已经在使用的Eclipse,想要在现有Eclipse的基础上添加插件来进行开发。1、下载Eclipse的Scala插件。下载网址:http://scala-ide.org/download/current.html进去网址后,向下拉动网页,可以看到如图中红色线条选中的位置,点击下载手动安装的插件。下载完成后解压该文件,会看到其中有...
2018-06-30 10:53:46 8140 2
原创 Scala之——Scala编程基础
1. Scala 基础1.1.声明变量 package com.lyz.scala/** * Created by liuyazhuang */object VariableDemo { def main(args: Array[String]) { //使用val定义的变量值是不可变的,相当于java里用final修饰的变量 val i = 1 //使用...
2018-06-28 19:10:37 1007
原创 Linux之——CentOS6.5 切换桌面模式与命令行模式
iso:CentOS-6.5-x86_64-bin-DVD1.iso虚拟机软件:VMWare方法一:修改配置文件:/etc/inittab各选项含义如下:0:逐步终止进程模式,进程将有序的终止,关机时系统处于这个运行级别;1:单用户模式,用于系统维护,只有少数进程运行,大部分服务也不启动;2:多用户模式,和运行级别3一样,网络服务没启动;3:多用户模式,允许多用户登录系统,是系统默认的启动级别;4...
2018-06-27 21:59:43 10711
转载 Hbase之——布隆过滤器BloomFilter
1、主要功能 提高随机读的性能 2、存储开销 bloom filter的数据存在StoreFile的meta中,一旦写入无法更新,因为StoreFile是不可变的。Bloomfilter是一个列族(cf)级别的配置属性,如果你在表中设置了Bloomfilter,那么HBase会在生成StoreFile时包含一份bloomfilter结构的数据,称其为MetaBlock;MetaBlock与Data...
2018-06-24 19:59:52 1596
原创 HBase之—— Snapshot(快照)
HBase在0.94之后提供了Snapshot功能,一个snapshot其实就是一组metadata信息的集合,它可以将表恢复到以前的一个状态。snapshot并不是一份拷贝,它只是一个文件名的列表,并不拷贝数据。一个全的snapshot可以回滚到原来的表schema和创建snapshot之前的数据。在0.95之后默认开启snapshot功能,之前版本的需要手动开启对snapshot的支持,修改h...
2018-06-24 19:46:30 1032
转载 Spark之——基于MLlib的机器学习
1. 简介MLlib 是Spark 中提供机器学习函数的库。它是专为在集群上并行运行的情况而设计的。MLlib 中包含许多机器学习算法,可以在Spark 支持的所有编程语言中使用,由于Spark基于内存计算模型的优势,非常适合机器学习中出现的多次迭代,避免了操作磁盘和网络的性能损耗。Spark 官网展示的 MLlib 与Hadoop性能对比图就非常显著。所以Spark比Hadoop的MapRedu...
2018-06-21 22:29:34 1303
转载 Hadoop-2.7.1+Zookeeper-3.4.8+HBase-1.2.1+Hive-2.0.0完全分布式集群
网上有的hadoop,zookeeper,hbase,apache-hive相关文档,具体大家可以百度具体了解,本文不多做介绍,本文从最基本的环境搭建入手,纯环境搭建。搭建次环境唯一要考虑就是软件相互之间的兼容性,及服务器内存(最好大点,虚拟机2G以上),当然也可以通过调启动参数,调小启动内存大小。具体文章会适当介绍。一、环境准备1.查看系统版本cat /etc/i...
2018-06-20 21:14:42 1497
转载 HBase之——MapReduce构建HBase二级索引
import java.io.IOException;import java.util.HashMap;import java.util.Map;import java.util.Set; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;impo...
2018-06-20 21:03:56 1171
转载 Spark之——Spark Submit提交应用程序
本部分来源,也可以到spark官网查看英文版。 spark-submit 是在spark安装目录中bin目录下的一个shell脚本文件,用于在集群中启动应用程序(如*.py脚本);对于spark支持的集群模式,spark-submit提交应用的时候有统一的接口,不用太多的设置。 使用spark-submit时,应用程序的jar包以及通过—jars选项包含的任意jar文件都会被自动传到集群中。spa...
2018-06-19 21:44:36 38118 2
原创 HBase之——集群数据手动迁移方案
1、从源HBase集群中复制出HBase数据库到本地目录hadoop fs -get2、目标HBase导入hadoop fs -put3、修复.META.表hbase hbck -fixMeta4、重新分配数据到各RegionServerhbase hbck -fixAssignments...
2018-06-19 21:33:11 1363
原创 Spark之——使用spark-submit部署应用(基于Spark 1.X)
例1: 提交 Python 应用bin/spark-submit my_script.py如果在调用 spark-submit 时除了脚本或 JAR 包的名字之外没有别的参数,那么这个 Spark 程序只会在本地执行。 当我们希望将应用提交到 Spark 独立集群上的时候,可以将独立集群的地址和希望启动的每个执行器进程的大小作为附加标记提供,如例2所示。例2: 提交应用时添加附加参数bin/spa...
2018-06-19 19:40:57 894
原创 HBase之——协处理编程
为什么引入协处理器?HBase作为列数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执行求和、计数、排序等操作。比如,在旧版本(<0.92)的Hbase中,统计数据表的总行数,需要使用Counter方法,执行一次MapReduce Job才能得到。虽然HBase在数据存储层中集成了MapReduce,能够有效用于数据表的分布式计算。然而在很多情况下,做一些简单的相加或者聚合计算...
2018-06-18 23:10:24 996
原创 Linux之——udp端口测试连接
一、tenlnet测试tcp[root@test ~]# telnet 192.168.209.121 123Trying 192.168.209.121…telnet: connect to address 192.168.209.121: Connection refusedtelnet: Unable to connect to remote host: Connection refu...
2018-06-13 12:10:26 49144 4
原创 Hive之——Hive SQL优化
一、Hive优化目标在有限的资源下,提高执行效率二、Hive执行HQL——> Job——> Map/Reduce三、执行计划查看执行计划explain [extended] hql四、Hive表优化1、分区静态分区动态分区set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstric...
2018-06-08 23:45:15 23717 7
原创 Hive之——自定义函数UDAF
关于Hive自定义函数UDF的相关信息,请参考博文《Hive之——自定义函数》用户自定义聚合函数,用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题:UDF也可以提供输入多个参数然后输出一个结果的运算,比如加法运算add(3,5),add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么?Double evaluate(...
2018-06-06 22:51:12 3848
原创 Hive之——高级查询
一、查询操作group by、 order by、 join、 distribute by、 sort by、 cluster by、 union allorder by: 全局排序sort by:每个分组内部排序二、底层的实现MapReduce三、简单的聚合操作1、count计数count(*)、 count(1)、 count(col)2、sum求和sum(可转化成数字的值)返回bigints...
2018-06-03 20:35:01 2317
原创 Hive之——表属性操作
1、修改表名alter table table_name rename to new_table_name;2、修改列表alter table table_name change column c1 c2 int comment 'xxxx';alter severity; //可以把改列放到指定列的后面,或者使用'first'放到第一位3、增加列alter table table_name a...
2018-06-02 20:08:48 4119
原创 Hive之——数据导出
一、导出的方式1、Hadoop命令方式get hadoop fs -get hdfs://liuyazhuang121:9000/user/hive/warehouse/lyz.db/test_p/st=20180602/datatext hadoop fs -text hdfs://liuyazhuang121:9000/user/hive/warehouse/lyz.db/test...
2018-06-02 19:59:36 1374
原创 Hive之——数据操作
一、Hive基本使用——查询基本语法select [all | distinct] select_expr, select_expr, ... from tablename [where where_condition]二、实例1、hive命令行执行select * from lyz;2、linux命令行执行hive -e "select * from lyz"hive -S -e "selec...
2018-06-02 19:55:51 953
原创 Hive之——Hive表操作
一、Hive基本使用——数据类型1、基本数据类型tinyint, smallint, int, bigint, boolean, float, double, string, binary, timestamp, decimal, char, varchar, date2、集合类型array: array类型是由一系列相同数据类型的元素组成,这些元素可以通过下标来访问,例array[i]map: ...
2018-06-02 14:14:24 3776
转载 大数据杂谈之——HIVE和HBASE区别
1. 两者分别是什么? Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能够在Haoop上批量的执行Hadoop。 Apache HBase是一种Key/Va...
2018-06-01 21:04:14 1269
Navicat for Premium.rar
2020-07-30
Flume采集Nginx日志到新版Hive.rar
2019-09-20
Flume采集Nginx日志到Hive.rar
2019-08-01
Apache标准Log,Hive测试使用
2019-03-17
glibc-2.14 Hadoop专属glib
2019-03-12
avro-1.8.1
2019-02-28
freefloatftpserver1.0 漏洞重现
2019-02-14
VulnServer
2019-01-16
Easy File Sharing Web Server 7.2
2019-01-15
ImmunityDebugger
2019-01-15
sqoop1.46和1.47
2018-09-12
基于java开发的功能强大、配置灵活的数据库之间的同步工具
2018-05-16
《Spring IOC核心技术》- 冰河原创电子书
2023-01-28
冰河的渗透实战笔记-冰河.pdf
2021-05-18
Docker+K8S+GitLab/SVN+Jenkins+Harbor持续集成yaml安装文件
2021-05-12
深入理解高并发编程(冰河原创电子书)
2021-04-28
FastDFS6.06完整安装包
2021-04-13
MySQL8.0.19安装包
2021-04-10
流程引擎(Flowable+Activiti)
2020-07-28
nexus-2.11.2-03-bundle.rar
2020-06-15
Navicat For MongoDB 15.0.6
2020-06-13
linux库:compat-libstdc++-33-3.2.3-61
2020-04-20
MySQL各版本my.cnf配置文件.rar
2020-01-12
MySQL 8.0.18源码安装包.rar
2019-11-23
升级gcc与cmake所需的安装文件.rar
2019-11-23
CentOS6.8 64位安装镜像.rar
2019-11-16
性能测试工具(postman+ab+jmeter).rar
2019-10-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人