- 博客(112)
- 收藏
- 关注
原创 Scala练习
//创建一个列表//将lst0中每个元素乘以10后生成一个新的集合 //将lst0中的偶数取出来生成一个新的集合 //将lst0排序后生成一个新的集合//反转顺序 ...
2018-12-29 16:25:40
410
原创 Scala 进行算数运算
聚合函数1. 先创建一个集合2. 求和3.最大值4.最小值5. 相加5.2 a.fold //聚合时要将初始值累加进去5.3 a.par.fold(10) //并行执行(并行化),初始值每个线程都加10,每次运行结果不一样5.4 左加5.5 右加6.迭代a.reduce(_+_) 第一个_是初始值,或者为1+2=...
2018-12-29 15:51:24
2098
原创 Scala练习题 对单词进行统计
1.创建类型为String的list集合2. 将list集合按“ ”(空格)进行分割 将list中的元素都进行分割,一个String类型的内容按(“ ”)分割3.将res6进行分割合并,将两个Array合并成一个list4. 上两步的优化。flatMap 分割压平5. 1 根据以上步骤思考,进行单词统计,需要转换成Map才可以根据<K,V>进行统计...
2018-12-29 15:19:35
747
转载 Linux虚拟机安装
版权声明:原创作品转载必须标明出处,谢谢配合! https://blog.csdn.net/qq_38704184/article/details/84073503关闭防火墙service iptables status --------查看防火墙状态service iptables stop ...
2018-12-27 13:09:06
175
原创 Redis
Redis是一个开源的高性能键值对数据库。他通过提供多种键值数据类型来适应不同的场景下的存储需求,并且借助许多高层的接口使其可以胜任,如缓存、队列系统的不同角色。历史与发展2008年,意大利的一家创业公司Merzia推出了一款基于MySQL的网站实时统计系统LLOOGG,然而没过多久该公司的创始人 Salvatore Sanfilippo便 对MySQL的性能感到失望,于是他决定亲自为LL...
2018-12-26 21:28:58
177
原创 Nginx教程
1. 课程目标1.1 了解反向代理和负载均衡的概念1.2 . 掌握Nginx的安装和使用1.3 利用Nginx实现负载均衡 2.Nginx相关概念 2.1 反向代理 反向代理(Reverse Proxy)方式是指以代理服务器来接受Internet上的连接请求,然后将请求转发给内部网络上的服务器,并将从服务器上得到的结果返回给internet上请求连接的好、...
2018-12-22 11:11:00
117
原创 Iptables教程
1.iptable防火墙简介Iptables 也叫netfilter 是Linux下自带的一款免费且优秀的基于包过滤的防火墙工具,它的功能十分强大,使用非常灵活,可以对流入、流出、流经服务器的数据包进行精细的控制。Iptable 是Linux2.4及2.6内核集成的模块。2.Iptable服务相关命令1、查看iptable状态service iptables status2. ...
2018-12-22 10:24:57
101
原创 Storm单词技术案例
功能说明:设计一个topology,来实现对文档里面的单词出现的频率进行统计整个totopolgy分为三个部分:1. RandomSentenceSpout:数据源,在已知的英文句子中,随机发送一条句子出去。2. SplitSentenceBolt : 负责将单行文本记录(句子)切分为单词.3. WordcountBolt :负责对单词的频率进行累加7.6、Stream G...
2018-12-21 17:46:58
244
原创 Zookeeper +Kafka +Flume的整合
1.JDK的安装2.安装Zookeeper3.安装Kafka4.安装Flume5.配置Flume在/root/apps/apache-flume-1.6.0-bin/conf 目录下创建flume-kafka.conf文件vi flume-kafka.conf##主要作用是监听目录中的新增数据,采集到数据之后,输出到kafka##主要作用是监听目录中的新增数据,...
2018-12-21 17:31:19
1579
原创 Apache kafka ---集群架构
Apache kafka ---集群架构下表描述了上图中显示的每个组件1.Broker(代理)kafka集群通常由多个代理组成以保持负载平衡。kafka代理是无状的,所以他们使用Zookeeper来维护它们的集群状态,一个kafka代理实例可以每秒处理数十万次读取和写入。每个Broker可以处理TB的消息,而没有性能影响。kafka经纪人两道选举可以由Zookeeper完成。2...
2018-12-21 17:04:54
799
1
原创 Apache kafka简介
在第一个挑战是如何收集大量的数据,第二个挑战是分析收集的数据。为了克服这些挑战,你必须需要一个消息系统。kafka专门分布式高吞吐量系统而设计。kafka往往工作的很好,作为一个更传统的消息代理的替代品。与其他消息传递系统相比,kafka具有更好的吞吐量,内置分区,复制和固有的容错能力,这使的它非常适合大规模消息处理应用程序。2.什么是消息系统?消息系统负责将数据从一个应用程序传输...
2018-12-19 21:30:30
384
原创 Storm
水槽实时采集,低延迟kafaka消息队列,低延迟风暴实时计算,低延迟Redis的实时存储,低延迟风暴用来实时处理数据,特点:低延迟,高可用,分布式,可扩展,数据不丢失提供简单理解的接口,便于开发。海量数据?数据类型很多,产生数据的终端很多,处理数据能力增强。风暴与Hadoop的的区别风暴用于实时计算,Hadoop的用于离线计算风暴处理的数据保存在内存中,源源不断; ...
2018-12-17 20:41:39
125
原创 离线计算
离线计算:批量获取数据、批量传输数据、周期性批量计算数据、数据展示代表技术:sqoop批量导入数据,HDFS批量存储数据,MapReduce的批量计算数据,蜂巢批量计算数据,**任务调度。1.hivesql2.调度平台3. Hadoop集群运维4.数据清洗(脚本语言)5.元数据管理6.数据稽查7.数据仓库模型架构2.流式计算是什么?流式计算:数据实时产生,数...
2018-12-17 19:40:37
2510
原创 三个版本的WorkCount
Java版的wordcount1.读取文件的数据,一行行读。FileRead.readline( );2.对读取的数据进行切割(比如 “ ”)line.sqlit (" ");string[ ] words=line.split ( " ");3. 对数组中的单词进行统计Map<String,Integer> count= new HashMap<...
2018-12-17 19:25:01
317
原创 JDK API
JDK API :1. JDK中包含大量的API类库,所谓API (Application programming interface ,应用程序编程接口)就是一些写好、可以供直接使用的功能(在Java中,这些功能以类的形式封装)2. JDK API:包含的类库功能强大,经常使用的有:字符串操作、集合操作、文件操作、输入输出操作、网络操作、多线程等。为了便于使用和维护,JDK尅库按...
2018-12-14 21:30:55
3831
原创 Hbase数据库与传统数据库的比较
HBase的知识点Mycat备份机制 HMASTER动态感知HregionServer的状态。 基于行的行式数据库 行式读取方式 基于列的列式数据库 传统数据库的特点:数据是按行存储 没有建立索引的查询将消耗很大的IO 建立索引和视图需要花费一定的物理空间和时间资源 面对大量的查询,复杂的查询,数据库必须被大量膨胀才能满足性能需求...
2018-12-13 21:34:44
11735
原创 hbase读写原理(2)
HBase的原理7.1体系图7.2写流程 客户端向HregionServer发送请求 HregionServer将数据写到hlog(提前写入日志)。为了数据的持久化和恢复 HregionServer将数据写到内存(memstore) 反馈客户端写成功。7.1.2数据flush过程7.2 当memstore数据达到阈值(默认是64M), 将数据刷硬盘,将内存中...
2018-12-13 21:29:45
339
原创 HBase的读写原理
写操作流程:客户端通过zookeeper的调度,向Hregion Server发送写数据的请求,在HRegion中写数据。 数据写入Hregion的Menstore,直到Menstore达到预定的阈值。 Menstore中数据会被冲成成一个StoreFile 随着storeFile的数量的增多,当达到一定的阈值会触发紧凑合并操作,将多个StoreFile合成一个StoreFile,同...
2018-12-13 21:14:57
271
原创 HBase基本命令
1.启动的HBase的前提是饲养员,Hadoop的启动为前提。1.1启动饲养员命令:zkServer.sh启动 1.2启动hadoop的命令:start-all.sh 1.3启动HBase的命令:start-hbase.sh2.转入到HBase的2.1查看所有表 list2.2创建表hbase(main):008:0> create 'user',...
2018-12-12 21:32:35
426
原创 Hbase简介
1.1什么是hbaseHBase是一个高可靠性,高性能,面向列,可伸缩的分布式存储系统,利用HBase技术可以在廉价PC Server上搭建大规模结构存储集群。HBASE目标的的英文存储并处理由成千上万大型的数据,更具有来说是仅需使用普通的硬件配置,就能能够处理成千上万的行和列所组成的大型数据。HBASE是Google Bigtable的开源实现,但是也有很多不同之处。比如:Googl...
2018-12-12 20:30:14
351
原创 sqoop数据
概述:sqoop 是apache旗下一款“Hadoop”和关系数据库服务器之间传送数据“的工具。导入数据:MySQL,Orale导入数据到Hadoop的HDFS,HIVE,HSASE等数据存储系统;导出数据:从Hadoop的的文件系统中导出数据到关系数据库。 工作机制:将导入或导出命令翻译成mapreduce程序来实现在翻译出的mapreduce中主要...
2018-12-11 21:15:25
195
原创 sqoop将数据库的内容在HDFS的上传、下载
sqoop上传、下载文件的环境必须是在hadoop运行的前提下,所以需要先启动hadoop1.在数据库建立表empcreate table emp(id int(4),name varchar(20));2.查看表的内容 select * from emp;3.Sqoop import; 普通的上传./bin/sqoop import --connect jdbc:my...
2018-12-11 20:55:58
163
原创 Flume
1.日志采集框架Flume缓存 1.1.1 概述 1.Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输。 2.Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中。 3.一般的采集需求,通过对flume的简单配置即可实现。 4.Flume针对特殊场景也具备良好的自定义扩展能力...
2018-12-11 19:56:54
442
原创 hive指令
1.查看数据库显示数据库;2.使用数据库使用hivedata;3.查看表默认创建的是内部表(表结构根据文件的结构来创建)hive> create table t1(id int,name string) > row format delimited > fields terminated by ',';4.删除表丢弃表T1;5.查看表的...
2018-12-10 20:28:02
132
转载 synchronized 和 lock 的使用分析(优缺点对比详解)
1. synchronized加同步格式synchronized (需要一个任意的对象(锁)){代码块中放操作共享数据的代码。}synchronized 缺陷synchronized 是java 中的一个关键字,也就是说是java 语言的内置的特性如果一个代码块被synchronized 修饰,当一个线程获取了对应的锁,并执行代码块时,其他线程只能一直等待,等待获取锁的...
2018-12-08 16:20:23
387
转载 动态代理模式(实例化详解)
简介代理模式通常用于达到对原有系统功能进行扩充的目的比如:你刚接手一个别人没有完成的项目,这是你不想动别人原理的代码,还需要添加新功能。这时代理模式,这时代理模式,这时代理模式会很好的帮助解决问题代理模式分为两种: 静态代理模式 、 动态代理模式静态代理静态代理一般是由一个接口,若干个实现类、若干个代理类构成静态代理模式,代理类聚合了被代理的类,且代理类及被代理类都实现了同...
2018-12-08 15:31:38
355
原创 zookeeper结构
zookeeper 的特性1. zookeeper:一个leader,多个follower组成的集群2. 全局数据一致:每一个server保存一份相同的数据副本。client无论连接到哪个的server,数据都是一致的3. 分布式读写 ,更新请求转发 ,由leader 实施。4. 更新请求顺序进行,来自同一个client的个不放心请求按其发送顺序依次执行5. 数据更新原子性,一...
2018-12-08 15:12:14
236
转载 IO与NIO的区别
NIO同步和异步的区别:同步和异步都是基于应用程序和操作系统。同步:应用程序注解参与IO读写,所以是阻塞的,需要等待IO完成。异步:IO读写交给操作系统,非阻塞。NIO(同步非阻塞):面向缓冲区IO : 面向流,(阻塞的,浪费性能)。NIO:主要是通过selector 选择器管理所有的 IO 时间,服务端为例:1. 首先需要serverSoketChannel .ope...
2018-12-08 14:38:00
123
转载 互联网架构演变历程
1.大型互联网应用的特点 高并大流量:面对的是高并发的用户以及大流量的访问。 高可用:系统7 * 24小时不断服务。 海量数据:需要存储并管理海量的数据,这会用到大量的服务器。 用户分布广泛,网络情况复杂:许多的大型互联网应用都是为全球用户服务的,但用户分布范围广,而且各地的网络情况千差万别。 安全环境恶劣:由于互联网的开放性,会使的网站很容易收到黑客的攻击。 需求快速变更,发布频繁...
2018-12-08 14:12:37
955
原创 Hdfs详解
Hdfs概述Hdfs是Hadoop Distributed File System 的简称,它是Hadoop实现的一个分布式文件系统。 Hdfs有高容错点的特点,并且设计用来部署在低廉的硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。 Hdfs放宽了POSIX的要求,可以以流的形式访问文件系统的数据。 Hdfs总体上采用了master/slave架构,主...
2018-12-04 19:45:41
302
1
原创 Hadoop的总体概述
Hadoop的总体概述Hadoop起源于谷歌的集群系统,谷歌的数据中心使用廉价Linux PC机组成集群,在上面运行各种应用。其核心组件有3个:第一个就是,GFS(GOOgle File Syetem),一个分布式文件系统,隐藏下层负载均衡冗余复制等细节,对上层程序提供一个统一的文件系统API接口。第二个是MapReduce的,谷歌发现大多数分布式运算可以抽象为MapReduce的...
2018-12-04 18:04:05
376
原创 大数据技术原理
HDFS:H是hadoop 分布式文件系统 分布式文件系统。Hdfs是Hadoop分布式文件系统的简称,它是Hadoop实现的一个分布式文件系统。纱线:管理资源调度mycat:中间件MapReduce的:分布式,并行处理的编译原理 伪分布式:纱和HDFS部署在同一台机器上组件介绍:Hadoop的核心组件HDFS ---- Hadoop生态圈的基本组成部...
2018-12-04 17:54:55
1471
原创 flume介绍
1.1.1概述Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中。一般的采集需求,通过对flume的简单配置即可实现。Flume针对特殊场景也具有良好的自定义扩展能力,因此,flume可以适当于大部分的日常数据采集...
2018-11-29 21:31:12
143
原创 Oracle数据库五
- 视图- 数据库对象之一,在SQl语句中体现的角色与表相同的- 但视图并不是一张真实存在的表,它只是对应了一条--SELECT语句查询的结果集。使用视图可以重用子查询- 并且简化Sql语句的复杂度- 创建包含3部门员工信息的视图CREATE VIEW v_EMP_3 AS SELECT DEPTNO,NAME,SALARY,JOBFROM EMPWHERE DEPTNO =3...
2018-11-03 17:08:33
151
原创 Oracle数据库的实例三
1、DISTINCT用于去除结果集中指定字段的重复值,DISTINCT只能在选择关键字之后--DISTINCT可以对多列去重,去重原则是这些列的组合没有重复值- 查看公司有多少职位 SELECT DISTINCT JOB,NAME from EMP; --ORDER BY字句 - 排序结果集,可以按照指定的字段进行- 升序或降序--ASC:升序,可以不写。默认就是升序--DESC:...
2018-11-03 16:51:57
159
原创 hibernate的懒加载
在之前的基础上测试懒加载与普通加载的区别冬眠的懒加载对象的三种状态对于Hibernate而言,对象的状态分为3种:1)暂时态当对象刚创建,和会话没有发生任何关系时,当程序运行完就立刻消失,被称为暂时态。2)持久态当执行如下代码时,对象变为持久态Emp e = new Emp();session.save(); 持久态的对象和会话发生了关系,如执行了保存,获取,查询等方法Ses...
2018-11-03 16:29:42
1875
原创 Oracle数据库的用法
1、DATE可以和一个数字进行加减运算,相当于加减了指定的天数,返回值为对应的日期一周后是哪天?SELECT SYSDATE + 7 FROM DUAL;2、"TO_CHAR"(x)常用于转换日期,可以将日期按照指定的日期格式转换为字符串SELECT TO_CHAR(SYSDATE,'YYYY-MM-DD HH24:MI:SS')FROM DUAL;3、--'03-...
2018-11-03 16:28:52
681
原创 oracle的用法
在Oracle数据库内有一种特殊的表Dual。Dual表是Oracle中的一个实际存在的表,任何用户均可读取,常用在没有目标表的Select中。Dual表由Oracle连同数据字典一同创建,所有的用户都可以用名称DUAL访问该表。这个表里只有一列DUMMY,该列定义为VARCHAR2(1)类型,有一行值X。从DUAL表选择数据常被用来通过SELECT语句计算常数表达式,由于DUAL只有一行数据,所...
2018-11-03 15:58:45
444
原创 hibernate查询多表数据库(下)在之前的基础上继续完善
hibernate查询多表数据库(2)在之前的基础上继续完善,不懂之处翻看上章。以前就建立好数据库的表student,这里我们要从关联关系下手,书本与学生的关系,相对于学生,一个学生可以有多本书籍,多本书籍是一个学生的,这里建T_book 数据库表,sid是student的id,这里不需要建外键,利用hql语句自动生成。1、之前的工作都有,只要补充缺少的部分。在hibernat...
2018-10-25 21:41:31
141
原创 hibernate简单查询单表数据库(1)
hibernate简单查询单表数据库(1)Hibernate :基于JDBC的,不用写SQL语句的持久层框架,其构架JAVA实体对象映射储存到数据库的表中,只需要维护对象与表的映射关系。Hibernate自动生成SQL语句。Hibernate简化了对数据库的操作,提供了不同数据库的统一接口,应用程序开发使跨数据库成了可能。 Hibernate是开源的、用于封装数据库访问层的组...
2018-10-25 21:23:26
654
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅