- 博客(45)
- 收藏
- 关注
原创 hadoop和linux命令大全
Linux的命令source /etc/profile 文件生效命令 -->jsp(java)的检测bin/hadoop checknative //查看hadoop的支持状态echo $HADOOP_HOME //查看hadoop的安装的目录mysql service start //启动MySQL的服务truncate table user; /...
2018-09-09 15:28:30 4339 2
原创 不同数据库的时间、换行格式问题
phoenix语法: 时间:TO_CHAR(CONVERT_TZ(create_time,'UTC','Asia/Shanghai'),'yyyy-MM-dd HH:mm:ss') as etl_time 换行:regexp_replace(sku_brand_name,'\n','') assku_brand_name sybase语法: 时间:convert(CHAR(8), current_time(), 108) as etl_time 换行:str_repl..
2021-04-06 16:43:44 600
原创 后台自动脚本安装
安装:brew/bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)"安装:lrzszbrew install lrzsz安装:wget brew install wget
2021-03-09 16:08:25 193
原创 Hive数仓架构分层
Hive数仓架构分层数据层 说明 ODS(数据运营层) 结构和原系统结构一致,原封不动的接入原始数据 DWD(数据明细层) 和ODS数据粒度一致,对数据惊醒清洗,新增标准编码进行一定维度的退化,减少下游事实表和维表的关联 DW(数据聚合层) DWA(轻度汇总)轻度聚合中间表提升模型的复用性 DWB(高度汇总)基于DWD、DWA进行高度聚合,存放宽表模型,用于提供后续的业务查询,OLAP分析 ADS(数据应用层) 提供给数据产品和数据分
2021-03-09 16:01:40 837
原创 solr-cloud集群搭建过程 启动异常处理
根据搭建过程中涉及你自己手动改过的配置文件,一一进行查看1查看tomcat的日志信息2,添加log4j.properties配置文件3,查看详细的日志信息注:tail -f catalina.out //看文件的末尾日志在solr-->example-->resource-->中拷贝log4j.properties文件cp 文件名到》 /so...
2019-09-20 15:00:01 166
原创 ClickHouse表常用引擎
TinyLog 是最简单的表轻量引擎(最多约100万行), 一写多读的应用场景。同时读写会损害数据 TinyLog 表经常作为中间表,用于数据的微批量处理. 语法中无需携带任何参数 它将数据保存到磁盘. 每个字段都以单独压缩文件形式保存. 当写入数据时, 数据追加到文件的末尾创建表的样例: CREATE TABLE [ IF NOT EXISTS ] [ ...
2019-09-20 14:22:25 13106 2
原创 8种数据类型之间的转换
package com.itheima;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Calendar;import java.util.Date;public class 各种转换 { public static void main(String[] args...
2019-05-06 11:41:15 2102
原创 shell脚本定时采集日志数据到hdfs_模板
shell的单使用语法---待续#!/bin/bash#set java envexport JAVA_HOME=/HOME/hadoop/app/jdk1.8.0export JRE_HOME=${JAVA_HOME}/jreexport CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/libexport PATH=${JAVA_HOME}/b...
2019-04-25 18:08:57 489
转载 Spark RDD --深度解析
概要为了能解决程序员能在大规模的集群中以一种容错的方式进行内存计算这个问题,我们提出了 RDDs 的概念。当前的很多框架对迭代式算法场景与交互性数据挖掘场景的处理性能非常差,这个是 RDDs 的提出的动机。如果能将数据保存在内存中,将会使的上面两种场景的性能提高一个数量级。为了能达到高效的容错,RDDs 提供了一种受限制的共享内存的方式,这种方式是基于粗粒度的转换共享状态而非细粒度的更新共享状...
2019-04-20 17:20:57 802
原创 Redis的AOF与RDB持久化
Redis提供了RDB持久化和AOF持久化这两种持久化功能,用于将存储在内存里面的数据库数据以文件形式保存到硬盘中,以免数据因为服务区的关闭而丢失。RDB文件是一个二进制文件,他保存了Redis服务器在创建RDB文件是,所有数据库的数据。三种最常见的创RDB文件的方法:1;执行SAVE命令;2:执行BGSAVE命令3:使用save选项设置保存条件,让服务器自动执行BGSAVE。...
2019-02-22 18:13:22 174
原创 linux系统离线安装mysql数据库
操作步骤参考如下:以root用户登录待安装的服务器,检查系统中是否安装过MySQL。 rpm -qa|grep -i mysql如果未安装过MySQL,系统无屏显信息。如果已安装过MySQL,系统显示已安装的MySQL安装包信息:mysql-community-libs-5.7.16-1.sles11libmysqlclient_r15-5.0.67-13.20.1my...
2019-02-21 14:59:29 3974 1
原创 kerberos认证管理
Kerberos: The Network Authentication Protocol1 引言0编写目的针对DataIDE和C70集群中均采用kerberos进行通讯安全认证,为方便日后对kerberos的学习,形成文档。1kerberos简介Kerberos简单来说就是一个用于安全认证第三方协议,它采用了传统的共享密钥的方式,实现了在网络环境不一定保证安全的环境下,cli...
2019-02-21 14:46:09 1132
原创 elasticSearch的npm install 报错
出错代码:npm ERR! Unexpected end of input at 1:252542npm ERR! },"1.7.0":{"name":"karma","version":"1.7.0","dependencies":{"bluebirdnpm ERR!
2018-10-15 19:49:06 1508 2
转载 hadoop的shuffle过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里...
2018-09-17 17:50:08 3643
原创 storm的ack消息不丢失机制
1:ack是什么ack 机制是storm整个技术体系中非常闪亮的一个创新点。通过Ack机制,spout发送出去的每一条消息,都可以确定是被成功处理或失败处理, 从而可以让开发者采取动作。比如在Meta中,成功被处理,即可更新偏移量,当失败时,重复发送数据。因此,通过Ack机制,很容易做到保证所有数据均被处理,一条都不漏。另外需要注意的,当spout触发fail动作时,不会自动重...
2018-09-17 17:42:47 800
原创 hadoop的架构模型(1.x,2.x的各种架构模型介绍)
1.x的版本架构模型介绍文件系统核心模块:NameNode:集群当中的主节点,主要用于管理集群当中的各种数据secondaryNameNode:主要能用于hadoop当中元数据(后文解释)信息的辅助管理DataNode:集群当中的从节点,主要用于存储集群当中的各种数据数据计算核心模块:JobTracker:接收用户的计算请求任务,并分配任务给从节点TaskTrack...
2018-09-14 17:09:38 2452
原创 Kafka的集群安装部署
架构图1)Producer :消息生产者,就是向kafka broker发消息的客户端。2)Consumer :消息消费者,向kafka broker取消息的客户端3)Topic :可以理解为一个队列。4) Consumer Group (CG):这是kafka用来实现一个topic消息的广播(发给所有的consumer)和单播(发给任意一个consumer)的手段。一个top...
2018-09-14 16:53:15 315
原创 消息对列的作用
1)解耦: 允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。2)冗余:消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险。许多消息队列所采用的"插入-获取-删除"范式中,在把一个消息从队列中删除之前,需要你的处理系统明确的指出该消息已经被处理完毕,从而确保你的数据被安全的保存直到你使用完毕。3)扩展性:因为消息队列解耦了你的处...
2018-09-14 16:35:38 525
原创 hadoop搭建的步骤
hadoop搭建的步骤1使用root账户登录2 修改IP3 修改host主机名4 配置SSH免密码登录5 关闭防火墙6 安装JDK6 解压hadoop安装包7 配置hadoop的核心文件 hadoop-env.sh,core-site.xml , mapred-site.xml , hdfs-site.xml8 配置hadoop环境变量9 格式化 hado...
2018-09-13 17:36:03 1573
原创 CDH 伪分布式环境搭建
安装环境服务部署规划 服务器IP 192.168.1.100 192.168.1.110 192.168.1.120 HDFS NameNode Secondary NameNode ...
2018-09-11 17:01:15 1494 1
原创 三大框架整合(Spring+SpringMVC+MyBatis)
spring的配置: 包扫描 数据库链接池 事务管理 spring于mybatiesspringMVC: 包扫描 处理器映射器 《mvc:annotation—》 处理器适配器 资源试图解析器 (前后缀)web.xml: 监听器tomcat启动 加载 前端视图控制器mybatis: 只是一个表头1 导入ma...
2018-09-10 20:21:10 216
原创 sqoop2架构及安装部署
框架:安装sqoop的前提是已经具备java和hadoop的环境sqoop2版本详细下载地址http://archive.cloudera.com/cdh5/cdh/5/sqoop2-1.99.5-cdh5.14.0.tar.gz1 我们这里使用sqoop1的版本,下载之后上传到/export/softwares目录下,然后进行解压cd /export/softwar...
2018-09-10 19:35:03 581
原创 Azkaban安装部署及启动
why:一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,java程序,mapreduce程序、hive脚本等各任务单元之间存在时间先后及前后依赖关系为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行azkaban两个服务模式安装所需软件:Azkaban Web服务安装包azkaban-web-server-0.1.0-SNAP...
2018-09-10 19:21:51 6359
原创 flume的负载均衡load balancer
三台机器规划如下:node01:采集数据,发送到node02和node03机器上去node02:接收node01的部分数据node03:接收node01的部分数据第一步:开发node01服务器的flume配置cd /export/servers/apache-flume-1.6.0-cdh5.14.0-bin/confvim load_banlancer_client....
2018-09-10 18:22:03 449
原创 集群的各个节点名词解释
zookeeper:主从架构 leader:集群当中的主节点,主要用于处理事务性的操作请求(增删改) follower: 从节点,非事务操作,查询,投票选举 节点模型: 永久节点 临时节点 序列化节点 可以组合成四类节点 永久节点 临时节点 永久序列化节点 永久临时节点 临时节点:一旦客户端断开连接,临时节点消失 ...
2018-09-09 15:30:27 11039
原创 Hive JDBC服务
启动hiveserver2服务前台启动cd /export/servers/hive-1.1.0-cdh5.14.0bin/hive --service hiveserver2后台启动cd /export/servers/hive-1.1.0-cdh5.14.0nohup bin/hive --service hiveserver2 &beeline连接h...
2018-09-09 15:18:01 818
原创 Hive在liunx系统上的安装部署
1、解压hivecd /export/softwarestar -zxvf hive-1.1.0-cdh5.14.0.tar.gz -C ../servers/ 2 直接启动 bin/hivecd ../servers/cd hive-1.1.0-cdh5.14.0/bin/hivehive> create database mytest;缺点...
2018-09-03 20:40:36 256
原创 solr-cloud集群搭建过程启动异常处理
异常状况:方法:根据搭建过程中涉及你自己手动改过的配置文件,一一进行查看这里采用日志,还可以csdn异常搜索,百度。。。。。1查看tomcat的日志信息2,添加log4j.properties配置文件3,查看详细的日志信息注:tail -f catalina.out //看文件的末尾日志在solr-->example-->resource--&...
2018-08-25 16:56:14 617
原创 solr-cloud集群的搭建
1,准备工作上传已经部署完solr的tomcat并解压 mkdir /usr/local/solr-cloud cd /usr/local/solr-cloud/ rz 上传tomcat的压缩包 unzip apache-tomcat-7.0.47.zip 复制4份tomcat实例 cp -r apache-tomcat-7...
2018-08-25 16:41:09 296
原创 zookeeper集群的搭建
Zookeeper 集群搭建指的是 ZooKeeper 分布式模式安装。通常由 2n+1台 servers 组成。 这是因为为了保证 Leader 选举(基于Paxos 算法的实现) 能过得到多数的支持,所以 ZooKeeper 集群的数量一般为奇数。Zookeeper 运行需要 java 环境, 所以需要提前安装 jdk。 对于安装leader+follower 模式的集群, 大致过程如...
2018-08-25 16:23:08 274
原创 CAS服务端的部署及CAS与spring的整合
一 CAS服务端的部署这里以4.0版本为例,cas-server-webapp-4.0.0.war 将其改名为cas.war放入tomcat目录下的webapps下。启动tomcat自动解压war包。浏览器输入 http://localhost:8080/cas/login 可以看到登陆的页面 如下这里有个固定的用户名和密码 casuser /Mellon登录成功后会跳...
2018-08-18 17:07:04 5966 1
原创 事务的ACID属性
一 事务:事务的ACID属性:1、原子性(Atomicity)原子性是指事务是一个不可分割的工作单位,事务中的操作要么都发生,要么都不发生。2、一致性(Consistency):事务必须使数据库从一个一致性状态变换到另外一个一致性状态。3、隔离性(Isolation):事务的隔离性是指一个事务的执行不能被其他事务干扰,即一个事务内部的操作及使用的数据对并发的其他事务是隔离的,并发执...
2018-08-06 13:50:34 8326 1
原创 Redis是什么?什么作用?优点和缺点
1 redis是什么?通常而言目前的数据库分类有几种,包括 SQL/NSQL,,关系数据库,键值数据库等等 等,分类的标准也不以,Redis本质上也是一种键值数据库的,但它在保持键值数据库简单快捷特点的同时,又吸收了部分关系数据库的优点。从而使它的位置处于关系数据库和键值数 据库之间。Redis不仅能保存Strings类型的数据,还能保存Lists类型(有序)和Sets类型(无序)的数据,...
2018-08-03 08:36:05 101872 8
原创 #{}和${}
#{}:表示一个占位符号,通过#{}可以实现preparedStatement向占位符中设置值,自动进行java类型和jdbc类型转换,#{}可以有效防止sql注入。 #{}可以接收简单类型值或pojo属性值。 如果parameterType传输单个简单类型值,#{}括号中可以是value或其它名称。“%”#{name}”%”${}:表示拼接sql串,通过${}可以将parameterTy...
2018-07-24 14:23:04 11909 1
原创 泛型的理解
一. 泛型概念的提出(为什么需要泛型)?首先,我们看下下面这段简短的代码: 1 public class GenericTest { 2 3 public static void main(String[] args) { 4 List list = new ArrayList(); 5 list.add("qqyumidi"); 6 ...
2018-07-18 12:12:29 1317
转载 spring和多态的理解
<div id="article_content" class="article_content clearfix csdn-tracking-statistics" data-pid="blog" data-mod="popu_307" data-dsm="post"> <div class="markdown_vi
2018-07-15 23:09:32 2543
原创 linux系统下安装jdk
准备工作1 rz 查看电脑是否有rz软件(在windows中上传文件的一个软件,也可以选择拖拽的方式)2 rz yum -y install lrzsz3 ftp工具 不需要安装,crt自带了ftp工具规定目录结构mkdir -p /export/servers 软件安装的目录mkdir -p /export/softwares 安装包存放的目录卸载openjdkrpm -qa |...
2018-07-15 11:23:13 192
原创 更改主机名 //主机名与IP地址的映射 //关闭selinux
虚拟机的7个准备工作1 更改主机名2 关闭防火墙3 关闭selinux4 更改主机名和ip地址的映射5 时钟的同步6 ssh免密登陆7 安装jdk
2018-07-15 10:31:53 1213
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人