Linux
小东升职记
人生陆远只有忘的甘静才会有江莱。
展开
-
深入理解Apache Flink核心技术
https://www.cnblogs.com/feiyudemeng/p/8998772.html转载 2019-06-04 09:40:13 · 523 阅读 · 0 评论 -
Stream Grouping详解
Storm里面有7种类型的stream groupingshuffle Grouping :随机分组,随机派发stream里面的tuple,保证每个bolt接收到的tuple数目大致相同。 Fields Grouping:按字段分组,比如按userID来分组,具有同样userID的tuple会被分到相同的bolts里的一个task,而不同的userID则会被分配到不同的bolts里面的tas...原创 2018-12-17 20:14:55 · 972 阅读 · 0 评论 -
Storm
Stormflume实时采集,低延迟 kafka消息队列,低延迟 storm实时计算,低延迟 Redis实时存储,低延迟storm用来实时处理数据,特点:低延迟、高可用、分布式、可扩展、数据不丢失。storm与Hadoop区别?storm用于实时计算,hadoop用于离线计算 storm处理的数据保存在内存中,源源不断;hadoop处理的数据保存在文件系统中,一批一批 st...原创 2018-12-17 19:55:01 · 406 阅读 · 0 评论 -
离线计算与实时计算
离线计算?离线计算:批量(batch)获取数据、批量传输数据、周期性批量计算数据、数据展示代表技术:sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、hive批量计算数据hivesql 调度平台 hadoop集群运维 数据清洗(脚本语言) 元数据管理 数据稽查 数据仓库模型架构流式计算?流式计算:数据实时产生、数据实时传输、数据实时计算、实...原创 2018-12-17 19:10:09 · 6716 阅读 · 0 评论 -
jQuery(购物Demo)
jQueryjQuery是一个优秀的JavaScript框架,一个轻量级的JS库。他封装了JS,CSS,DOM,提供了一致的,简洁的API。兼容CSS3,以及各种浏览器使用户更方便地处理HTML,Events、实现动画效果,并且方便地为网站提供AJAX交互使用户的HTML页面保持代码和HTML内容分离注意:jQuery2.x开始不再支持Internet Explorer6,...原创 2018-12-14 21:34:49 · 517 阅读 · 0 评论 -
JavaScript(购物Demo)
JavaScript是嵌入HTML中在浏览器中的脚本语言,具有与java和C语言类似的语法一种网页编程技术,用来向HTML页面添加交互式行为 直接嵌入HTML页面 由浏览器解释执行代码,不进行预编译数据类型转换函数toString:所有数据类型均可转换为String类型; parseInt:强制转换成整数,如果不能转换,则返回NaN(not a number); parseFlo...原创 2018-12-14 20:47:18 · 1260 阅读 · 0 评论 -
基本数据类型与包装类区别
java中八大基本数据类型:Byte,short,int,long,char,double,float,boolean二者之间也存在一些区别:声明方式不同,基本类型不适合new关键字,而包装类型需要使用new关键字来在堆中分配存储空间; 存储方式及位置不同,基本类型是直接将变量存储在堆栈中,而包装类型是将对象放在堆里面,然后通过引用来使用; 初始值不同,基本类型的初始化入int为0...原创 2018-12-14 17:46:52 · 532 阅读 · 0 评论 -
Hbase的系统架构
Hbase的物理存储 HRegion1table中所有的行都是按照row key的字典序排序; table在行的方向上分割为多个HRegion; HRegion按大小分割的,每个表开始只有一个HRegion,随着数据增多,HRegion不断增大,当增大到一个阈值时候,HRegion就会等分为两个新的HRegion,之后会有越来越多的Region; HRegion是Hbase中分布式存储和...原创 2018-12-13 20:05:37 · 397 阅读 · 0 评论 -
MR计算模型三
MapReduce的作业执行涉及的4个独立实体客户端:(client) 编写mapreduce程序,配置作业,提交作业,这就是程序员完成的工作。 JobTracker: 初始化作业,分配作业,与TaskTracker通信,协调整个作业的执行。 TaskTracker: 保持与JobTracker的通信,在分配的数据片段上执行Map或Reduce任务,TaskTracker和JobTr...原创 2018-12-03 20:39:14 · 331 阅读 · 0 评论 -
一套完整的webserver+Flume+kafka+storm整合方案
实时处理系统:(Flume+Kafka+Storm+hbase+mysql) 为什么要记录访问日志的行为?通过日志我们可以得到网站页面上的访问量,网站的黏性,推荐用户行为分析,是指在获得网站访问量基本数据的情况下,对有关数据进行统计、分析,从中发现用户访问网站的归类,并将这些规律与网络营销策略等相结合,从而发现目前网络营销活动中可能存在的问题,并为进一步修正或重新制定网络营...原创 2019-01-17 20:28:09 · 445 阅读 · 0 评论 -
解决spark中遇到的数据倾斜问题
一. 数据倾斜的现象多数task执行速度较快,少数task执行时间非常长,或者等待很长时间后提示你内存不足,执行失败。二. 数据倾斜的原因常见于各种shuffle操作,例如reduceByKey,groupByKey,join等操作。数据问题key本身分布不均匀(包括大量的key为空) key的设置不合理spark使用问题shuffle时的并发度不够 计算方式有误三...转载 2019-02-20 17:44:10 · 1369 阅读 · 1 评论 -
shell脚本
配置一对多免密登录:https://blog.csdn.net/qq_38704184/article/details/84305854判断是否是文件if [ -f $OTHERLINUXFILEPATH ];then echo "${OTHERLINUXFILEPATH} is file"else echo "${OTHERLINUXFILEPATH...原创 2019-04-12 15:26:18 · 133 阅读 · 2 评论 -
Spark读写Hbase的二种方式对比
作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处转载 2019-06-05 16:07:55 · 203 阅读 · 0 评论 -
flume中hdfs sinks参数配置详解
https://blog.csdn.net/xiaolong_4_2/article/details/81945204https://blog.csdn.net/u012689336/article/details/52711413转载 2019-05-23 14:26:17 · 381 阅读 · 0 评论 -
Linux状态码
https://blog.csdn.net/u013366617/article/details/83147953转载 2019-05-27 17:44:17 · 220 阅读 · 0 评论 -
kafka web页面监控KafkaOffsetMonitor
https://blog.csdn.net/qq_20641565/article/details/72897666转载 2019-04-30 14:03:32 · 761 阅读 · 0 评论 -
Scp+postgresql问题总结
Scp+postgresql问题总结本地集群的数据同步到阿里云服务器上,再将数据上传到阿里云数据库中,数据库操作要求的是创建临时表,上传数据,查看是否存在索引,删除索引,创建索引,删除原始表,修改临时表表名1:对于scp过程测试多次出现的问题是数据只上传了85M,就停止了,然后开始操作数据库等操作。当时网速是9.多/MB,scp默认的数据上传超时时间为30秒,算下来传输85M也是理所当...原创 2019-04-19 09:54:47 · 583 阅读 · 0 评论 -
Kerberos的hive链接问题
https://www.cnblogs.com/xiashiwendao/p/8365167.html转载 2019-04-16 13:59:31 · 612 阅读 · 0 评论 -
java代码连接Hive(开启Kerberos和sentry)
https://blog.csdn.net/qq_30982323/article/details/80650708转载 2019-04-16 13:52:11 · 536 阅读 · 0 评论 -
JDBC 连接Hive 简单样例(开启Kerberos)
https://blog.csdn.net/u013850277/article/details/77281229转载 2019-04-16 13:29:49 · 709 阅读 · 0 评论 -
MR计算模型四
YARN是hadoop2.0中的资源管理系统,他的基本设计思想是将MRv1中的JobTracker的拆分成了两个独立的服务:一个全局的资源管理器的ResourceManager和每个应用程序特有的ApplicationMaster。--ResourceManager负责整个系统的资源管理和分配。 --ApplicationMaster负责单个应用程序的管理。Yarn总体上仍然是Master...原创 2018-12-05 20:48:00 · 253 阅读 · 0 评论 -
IO与NIO的区别
NIO同步和异步的区别:同步和异步都是基于应用程序和操作系统。同步:应用程序直接参与IO读写,所以是阻塞的,需要等待IO完成。异步:IO读写交给操作系统。非阻塞。NIO(同步非阻塞):面向缓冲区,IO:面向流,(阻塞的 浪费性能)NIO:主要是通过selector选择器管理所有的IO事件,服务端为例:首先需要serverSoketChannel.open();获得一个cha...原创 2018-12-07 20:13:21 · 294 阅读 · 0 评论 -
Hive(二)--分区分桶,内部表外部表
1.简述Hive是hadoop生态圈中实现数据仓库的一项技术。虽然hadoop和hdfs的设计局限了Hive所能胜任的工作,但是hive仍然是目前互联网中最适合数据苍鹭的应用技术。不论从“品相还是举止”,hive都像一个关系型数据库。用户对数据库、表和列这类术语比较熟悉的话,那么掌握hive的查询语言HQL也轻而易举。不过,hive的实现和使用方式与传统的关系数据库相比,有很多不同的地方。...原创 2018-11-28 20:27:26 · 385 阅读 · 0 评论 -
zookeeper结构
zookeeper的特性zookeeper:一个leader,多个follower组成的集群 全局数据一致:每个server保存一份相同的数据副本,client无论连接到呢个server,数据都是一致的 分布式读写,更新请求转发,由leader实施 更新请求顺序进行,来自同一个client的更新请求按其发送顺序依次执行 数据更新原子性,一次数据更新要么成功,要么失败 实时性,在一定时...原创 2018-11-15 19:33:32 · 926 阅读 · 0 评论 -
淘宝技术这十年
淘宝现状高并发已经成为当前互联网企业面临的巨大挑战!例如2015年“双十一”全球狂欢节正式落下帷幕,天猫最终交易额也达到了创纪录的912.17亿元!参与交易国家和地区达到232个,双十一支付宝最高峰每秒处理的交易笔数是8.59万笔,在线人数峰值达到4500万。淘宝的核心技术(国内乃至国际的Top,这还是2011年的数据)拥有全国最大的分布式Hadoop集群(云梯,2000左右节点,24...原创 2018-11-15 18:54:47 · 214 阅读 · 0 评论 -
基于Linux--mini版下的MySQL安装
1.我们可以通过如下命令来查看我们的操作系统上是否已经安装了mysql数据库[root@xiaoluo ~]# rpm -qa | grep mysql // 这个命令就会查看该操作系统上是否已经安装了mysql数据库2.有的话,我们就通过 rpm -e 命令 或者 rpm -e --nodeps 命令来卸载掉[root@xiaoluo ~]# rpm -e mysql // 普通...原创 2018-11-15 18:49:27 · 382 阅读 · 0 评论 -
Linux虚拟机安装
关闭防火墙service iptables status --------查看防火墙状态service iptables stop --------停止防火墙服务在虚拟机中命令行添加如下命令添加固定ipvi /etc/sysconfig/network-scripts...原创 2018-11-14 20:37:59 · 414 阅读 · 0 评论 -
vmware三种网络模式
VMware虚拟机三种联网方法及原理 一、Brigde——桥接:默认使用VMnet0 1、原理: Bridge 桥"就是一个主机,这个机器拥有两块网卡,分别处于两个局域网中,同时在"桥"上,运行着程序,让局域网A中的所有数据包原封不动的流入B,反之亦然。这样,局域网A和B就无缝的在链路层连接起来了,在桥接时,VMWare网卡和物理网卡应该处于同一IP网段 当然要保证两个局域网没...原创 2018-11-14 20:43:19 · 1142 阅读 · 0 评论 -
NAT模式联网配置
1.将任意一台虚拟机设置为VMnet8(Nat模式)2.点击编辑--》虚拟网络编辑器3.操作如下4.C:\Windows\System32\drivers\etc\hosts打开编辑192.168.12.1将代表的是我们用虚拟机可以访问到我们的window网络192.168.12.77代表的是我们的当前虚拟机将使用这个虚拟的ip进行上网,其实就是在蹭...原创 2018-11-14 21:09:53 · 409 阅读 · 0 评论 -
SSH免密登录原理
1.进入home目录下 cd ~2.SSH是标准的协议,可用于大多数UNIX操作系统,能够实现字符界面的远程登录管理,采用密文的形式在网络中传输数据,相对于通过明文传输的Telnet,具有更高的安全性。SSH提供了账号和密码两种登录方式。不同的是口令用户验证方式传输的是用户账号密码。而SSH用密钥登录更安全。查看scp两边有没有协议,没有请安装:运行yum install openssh...原创 2018-11-15 17:12:02 · 246 阅读 · 0 评论 -
基于Linux--mini版下的JDK安装
1.上传jdk-7u45-linux-x64.tar.gz到Linux上2.解压jdk到/usr/local目录tar -zxvf jdk-7u45-linux-x64.tar.gz -C /usr/local/3.设置环境变量,在/etc/profile文件最后追加相关内容vi /etc/profile export JAVA_HOME=/usr/local/jdk1....原创 2018-11-15 17:19:40 · 257 阅读 · 0 评论 -
基于shell脚本下的一对多SSH免密
1.上传所需要的压缩包到你的Linux主目录下链接: https://pan.baidu.com/s/1exWYm0FsqlKSW8Ur94SZlQ提取码: u6f2 2.配置脚本文件#!/bin/bashSERVERS="这里是你的Linux主机ip或者ip对应的主机名,多个主机名之间以空格隔开即可"PASSWORD=这是你当前主机的root下的登录密码BASE_SER...原创 2018-11-20 17:19:52 · 273 阅读 · 0 评论 -
HADOOP集群搭建
1.集群简介HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起HDFS集群:负责海量数据的存储,集群中的角色主要有 NameNode / DataNodeYARN集群:负责海量数据运算时的资源调度,集群中的角色主要有 ResourceManager /NodeManager2.服务器准备本案例使用虚拟机服务器来大家HADO...原创 2018-11-20 17:45:27 · 238 阅读 · 0 评论 -
MR计算模型一
MapReduce最早是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法。Google公司设计MapReduce的初衷,主要是为了解决其搜索引擎中大规模网页数据的并行化处理。 Google公司发明了MapReduce之后,首先用其重新改写了其搜索引擎中的Web文档索引处理系统。但由于MapReduce可以普遍应用于很多大规模数据的计算问题,因此自发...原创 2018-11-23 19:27:48 · 2845 阅读 · 0 评论 -
shuffle(partitioner+combiner+sort)
shuffle(partitioner+combiner+sort)每一个map有一个环形内存缓冲区,用于存储任务的输出。默认大小100MB(io.sort.mb属性),一旦达到阀值0.8(io.sort.spill.percent),一个后台线程把内容写到(spill)磁盘的指定目录(mapred.local.dir)下的新建的一个溢出写文件 写磁盘前,要partition,sort。如果...原创 2018-11-30 21:04:18 · 310 阅读 · 0 评论 -
Hive(一)
1.Hive的特点可扩展性:Hive可以自由的扩展集群的规模,一般情况下不需要重启服务。延展性:Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数容错性:良好的容错性,节点出现问题SQL仍可完成执行。2.Hive与传统数据库对比查询语言。由于 SQL 被广泛的应用在数据仓库中,因此,专门针对 Hive 的特性设计了类 SQL 的查询语言 HQL。熟悉 SQL 开...原创 2018-11-27 20:01:28 · 404 阅读 · 0 评论 -
自定义MapReduce业务逻辑
1.我们刚一开始的时候,在HDFS上面处理文件时候,我们并没有自己写MapReduce,而是用的是镜像架包下面的/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.4.jar,同样的也将运行出来结果(hadoop jar hadoop-mapreduce-examples-2.6.4.jar wordcount 文件的在Linux上的源路径 ...原创 2018-11-26 20:13:08 · 473 阅读 · 0 评论 -
Flume+Sqoop
Flumeflume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。flume可以采集文件,socket数据包等各种形式源数据。有可以将采集到的数据传输到HDFS、hbase、hive、kafka等众多外部存储系统中一般的采集需求,通过对flume的简单配置即可实现。flume针对特殊场景也具备良好的自定义扩展能力,因此,flume可以使用于大部分的日常数据采集场景。...原创 2018-11-29 19:35:54 · 1159 阅读 · 0 评论 -
NameNode工作机制
NameNode是整个文件系统的管理节点。他维护这整个文件系统的文件目录树,文件/目录的元信息和每个文件对应的数据块列表。接受用户的操作请求。文件包扣:fsimage:元数据镜像文件。存储某一时段NameNode内存元数据信息。edits:操作日志文件fstime:保存最近一次checkpoint的时间NameNode的工作特点NameNode始终在内存中保存meted...原创 2018-11-23 21:30:28 · 271 阅读 · 0 评论 -
HDFS写数据详解
HDFS写数据详解hadoop模块每一部分都是分布式的,所以他们之间的通信都是建立在RPC基础上的,这点要明白HDFS写数据(上传数据时,DataNode的选择策略:1.第一个副本先考虑跟client最近的(同机架)2.第二个副本在考虑跨机架选择一个DataNode,3.第三个副本就在第一个副本同机架例外挑选一个DataNode存放)怎样知道呢个机器在呢个机架上呢?可以配置机架感知...原创 2018-11-23 20:32:08 · 283 阅读 · 0 评论