自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 Flume架构原理

flume架构图AgentAgent 是一个 JVM 进程,它以事件的形式将数据从源头送至目的。Agent 主要有 3 个部分组成,Source、Channel、Sink。SourceSource 是负责接收数据到 Flume Agent 的组件。Source 组件可以处理各种类型、各种格式的日志数据,包括 avro、thrift、exec、jms、spooling directory、netcat、sequence、generator、syslog、http、legacy。SinkSink

2020-11-28 20:50:07 166

原创 Linux虚拟机之间的拷贝脚本

xsync.sh 脚本在/usr/local/bin下创建xsync.sh脚本cd /usr/local/bintouch xsync.sh编写脚本vi xsync.sh#!/bin/bash#1 获取输入参数个数,如果没有参数,直接退出pcount=$#if((pcount==0)); thenecho no args;exit;fi#2 获取文件名称p1=$1fname=`basename $p1`#echo fname=$fname#3 获取上级目录到绝对路径

2020-11-28 14:32:20 436

原创 Linux中的crontab定时任务

crontab语法进入crontab:crontab -ecrontab写法:分 小时 月份中的日期 月份 星期中的日期(星期天是1) (1)*:表示匹配该域的任意值。假如在Minutes域使用*, 即表示每分钟都会触发事件。  (2)?:只能用在DayofMonth和DayofWeek两个域。它也匹配域的任意值,但实际不会。因为DayofMonth和DayofWeek会相互影响。例如想在每月的20日触发调度,不管20日到底是星期几,则只能使用如下写法: 13 13 15 20 * ?,

2020-11-23 19:39:24 199

原创 数据库三大范式

原始表第一范式(1NF)要求数据库表的每一列都是不可分割的基本数据项,同一列中不能有多个值。第二范式(2NF)要求实体中每一行的所有非主属性都必须完全依赖于主键;即:非主属性必须完全依赖于主键第三范式(3NF)要求实体中的属性不能是其他实体中的非主属性。因为这样会出现冗余。即:属性不依赖于其他非主属性。...

2020-11-19 10:43:22 138

原创 Mysql中的事务

事务四大特性Mysql并发产生的问题事务隔离级别查询隔离级别select @@tx_isolation;设置隔离级别set global transaction isolation level 级别字符串;

2020-11-19 09:58:39 128

原创 HBase随机读写

HBase随机读写HDFS不太适合做大量的随机读应用,但HBASE却特别适合随机的读写个人理解:1、数据库一般都会有一层缓存,任何对数据的更改实际上是先更改内存中的数据。然后有异步的守护进程负责将脏页按照一定策略刷新到磁盘空间中去。这就可以大大降低软件对于磁盘随机操作的频度。2、HDFS读取会进行全文件查找耗时相当大,而数据库通常会建索引查找起来就快。...

2020-11-18 11:46:40 657

原创 Mysql中的流程控制语句

流程控制结构顺序、分支、循环一、分支结构1.if函数语法:if(条件,值1,值2)功能:实现双分支应用在begin end中或外面2.case结构语法:情况1:类似于switchcase 变量或表达式when 值1 then 语句1;when 值2 then 语句2;…else 语句n;end情况2:casewhen 条件1 then 语句1;when 条件2 then 语句2;…else 语句n;end应用在begin end 中或外面*/3.if结构语

2020-11-14 14:17:58 209

原创 Mysql中的存储过程与函数

存储过程和函数共同含义一组经过预先编译的sql语句的集合共同好处:1、简化应用开发人员的很多工作2、减少数据在数据库和应用服务器之间的传输3、提高了数据处理的效率存储过程分类:1、无返回无参2、仅仅带in类型,无返回有参3、仅仅带out类型,有返回无参4、既带in又带out,有返回有参5、带inout,有返回有参注意:in、out、inout都可以在一个存储过程中带多个创建存储过程语法:delimiter $create procedure 存储过程名(in|out|ino

2020-11-14 11:37:16 132

原创 Mysql中的视图与临时表

视图定义MySQL从5.0.1版本开始提供视图功能。一种虚拟存在的表,行和列的数据来自定义视图的查询中使用的表,并且是在使用视图时动态生成的,只保存了sql逻辑,不保存查询结果应用场景:• 多个地方用到同样的查询结果• 该查询结果使用的sql语句较复杂优点• 重用sql语句• 简化复杂的sql操作,不必知道它的查询细节• 保护数据,提高安全性创建视图的语法:create [or replace] view view_nameAs select_statement[with|cas

2020-11-14 11:16:55 1706

原创 Mysql中的约束

什么是约束• 为了保证数据的一致性和完整性,SQL规范以约束的方式对表数据进行额外的条件限制。• 约束是表级的强制规定• 可以在创建表时规定约束(通过 CREATETABLE 语句),或者在表创建之后也可以(通过 ALTER TABLE 语句)约束类型Mysql的五种约束:•NOT NULL :非空约束,规定某个字段不能为空• UNIQUE : 唯一约束,规定某个字段在整个表中是唯一的•PRIMARY KEY :主键(非空且唯一)•FOREIGN KEY :外键•DEFAULT

2020-11-14 10:49:10 129

原创 shell命令操作mysql和hive

hivehive 所有参数usage: hive -d,--define <key=value> Variable subsitution to apply to hive commands. e.g. -d A=B or --define A=B --database <databasename> Specify the database to use -e <quo

2020-11-12 12:22:35 313

原创 sqoop中数据从Mysql到Hive(Hbase)

一、定义Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递。可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中也可以将HDFS的数据导进到关系型数据库中。sqoop将导入或导出命令翻译成mapreduce程序来实现。二、使用RDBMS到HDFS...

2020-11-11 23:19:53 217

原创 linux 修改时间

1、查看当前系统时间2、data -s ‘…’ 修改时间修改成功但是手动修改时间可能不够准确,下面是自动校准时间3、使用ntpdate命令安装ntpdate指令yum install ntpdate同步时间方法一ntp.api.bz 是一组NTP服务器集群,目前有6台服务器,位于上海电信ntpdate -u ntp.api.bz方法二同步到阿里服务器ntpdate ntp1.aliyun.com...

2020-11-11 19:53:20 114

原创 linux程序后台启动几种方法

一、区别:2>/dev/null意思就是把错误输出到“黑洞”>/dev/null 2>&1默认情况是1,也就是等同于1>/dev/null 2>&1。意思就是把标准输出重定向到“黑洞”,还把错误输出2重定向到标准输出1,也就是标准输出和错误输出都进了“黑洞”2>&1 >/dev/null意思就是把错误输出2重定向到标准出书1,也就是屏幕,标准输出进了“黑洞”,也就是标准输出进了黑洞,错误输出打印到屏幕...

2020-11-11 09:46:16 1685

原创 Python——机器学习之决策树、随机森林、极限森林简单理解

决策树熵定义为信息的期望值为了好理解分类数目,熵越大,随机变量的不确定性就越大。随机森林(Random Forests)随机森林是一种重要的基于Bagging的集成学习方法,可以用来做分类、回归等问题。随机森林有许多优点:具有极高的准确率随机性的引入,使得随机森林不容易过拟合随机性的引入,使得随机森林有很好的抗噪声能力能处理很高维度的数据,并且不用做特征选择既能处理离散型数据,也能处理连续型数据,数据集无需规范化训练速度快,可以得到变量重要性排序容易实现并行化随机森林的缺点

2020-11-10 23:36:19 1567

原创 Hadoop组件单机版——shell脚本一键安装

在/opt/下存放安装的各个软件,然后安装到/opt/soft/下#! /bin/bashecho 'full system install begining....'#global var jdk=falsemysql=falsehadoop=falsesqoop=falsehive=falsezookeeper=falsehbase=falsespark=trueflume=falsekafka=falseflink=false#setup jdk 1.8.111

2020-11-09 23:01:23 638 2

原创 ssh远程启动zookeeper失败解决方案

问题描述shell脚本:一键启动、查看、停止zookeeper集群#! /bin/bashcase $1 in"start"){ for i in myvmhost myvm01 myvm02 myvm03 do ssh $i "/opt/bigdata/hadoop/zookeeper345/bin/zkServer.sh start" done};;"stop"){ for i in myvmhost myvm01 myvm02 myvm03 do ssh $i "/opt

2020-11-08 14:12:39 733

原创 Python——机器学习之近邻算法(KNN)

近邻算法——K-NearestNeighbor如果一个待分类样本在特征空间中的k个最相似(即特征空间中K近邻)的样本中的大多数属于某一个类别,则该样本也属于这个类别,即近朱者赤,近墨者黑,这是一种监督学习。例如:在黑实线的圆圈内(只选3个邻居),有两个红三角一个蓝方块,那么系统认为?就是红三角在黑虚线的圆圈内(只选5个邻居),有两个红三角三个蓝方块,那么系统认为?就是蓝方块所以定的邻居数(n_neighbors)会影响最终的判断n_neighbors过大会使xun’lian’mo此外,距离度

2020-11-04 22:38:40 397 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除