自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(77)
  • 问答 (5)
  • 收藏
  • 关注

翻译 openTSDB详解之Metadata

【译】openTSDB详解之Metadata本文译自:http://opentsdb.net/docs/build/html/user_guide/metadata.htmlMetadataopentsdb的主要目的是存储时间序列数据,并且允许有对数据的不同操作。然而,它(元数据)可以帮助我们知道TSDs中存储了什么类型的数据,并且提供了当与这些信息交互时所产生的一些上下文信息。ope...

2018-07-31 09:03:18 1743

原创 azkaban使用简介

azkaban使用简介

2018-07-30 15:28:43 407

原创 Spark案例实战之四

Spark案例实战之四一.微博专栏分析1.需求:有一个微博网站,下面有很多栏目,每个栏目下面都有几千万用户,每个用户会有很多的粉丝,要求取出各栏目粉丝量最多的用户TopN。【可用TreeMap实现,专栏:feature, 粉丝:fan】 日志每行记录如下: 体育 user01 user04 user05 user08 user09 user10 其中体育是专栏名,user01是用户...

2018-07-27 22:04:17 1359

原创 Spark案例实战之三

Spark案例实战之三一.简易日志分析1.现有如下记录的日志,欲把每种状态提取并计数,然后从低到高排数。INFO This is a message with contentINFO This is some other contentINFO Here are more messagesWARN This is a warningERROR Something bad h...

2018-07-27 22:03:44 934

原创 azkaban的源码编译与安装

azkaban的源码编译安装【待完善,新人勿以此为标本】我相信,很多人看到源码编译安装,都想离开,但是说句良心话,这个azkaban的源码编译安装真的没有这么难。下面我提供一下我执行的脚本。按照操作即可。 将从官网下载的源码包解压,然后依次执行如下命令:./gradlew clean# Build and install distributions./gradlew install...

2018-07-27 21:47:49 4371 2

原创 Azkaban Schedule使用详解

[译]Cron Trigger Tuorial0.前言本文译自: http://www.quartz-scheduler.org/documentation/quartz-2.x/tutorials/crontrigger.html 之所以想翻译本篇文章,因为在Linux的Crontab和Azkaban中需要使用schedule的功能,但是这个功能对于新手来说,还是稍有难度。这里便...

2018-07-27 20:41:16 5078 2

原创 MySQL编程实战三之求任务执行批次号

MySQL中求任务执行批次号[与时间相关]需求:想产生一个与时间有关的process_id;需要考虑到批次号的不冲突性。例如有很多任务同时执行,这个同时很有可能是在同一毫秒上,所以我们最好使用一个随机数来完成这个需求。实现一:select floor(date_format(sysdate(3),'%Y%m%d%H%i%s%f')/1000) + floor(1000 * ran...

2018-07-25 17:32:25 720

原创 Mysql常见错误

Mysql常见错误错误1create table mydatabase.statistics(id int(10) primary key not null auto_increment,teleNumber varchar(15) not null,yearMonth varchar(10) not null,callDuration int(10) not null)...

2018-07-25 10:33:14 386

原创 Spark案例实战之二

Spark案例实战之二0.如果打开的是本地文件,则是三个’/’,如file:///usr/local/spark/mycode/wordcount/word.txt 01.reduceByKey((a,b)=> a+b) 把具有相同键的map的value加起来 02,如果是集群环境下,想在driver节点上打印所有结果,就需要使用collect方法,1.pair RDD的创建方...

2018-07-25 10:26:16 3912

原创 RDD编程

RDD编程1.RDD编程概述—-整个spark的核心 2.pari RDD 3.共享变量【重要】 4.数据读写 5.WordCount程序解析1.RDD编程概述1.RDD创建, 01.Spark采用textFile()方法从文件系统中加载数据创建RDD 该方法把文件的URI作为参数,这个URI可以是: 001.本文件系统的地址; 002.或者是分布式...

2018-07-25 10:20:20 433

原创 RDD的运行原理

RDD的运行原理0.前言01,许多迭代式算法(机器学习,图算法)和交互式数据 (挖掘工具) 不同的计算阶段之间会重用中间结果 02,目前的MapReduce框架都是把中间结果写入到HDFS中,带来大量的数据复制,磁盘IO和序列化开销RDD就是为了满足上述的问题而设计的,提供了一个抽象的数据结构 01.不必担心底层数据的分布式特性,只需要将具体的应用逻辑表达为一系列转换处理 0...

2018-07-25 10:18:10 1189

原创 Spark的设计和运行原理

Spark的设计和运行原理1.spark底层运行原理2.spark(计算框架)的主要特点1.运行速度快 使用DAG执行引擎以支持循环数据流,内存计算 2.通用性 SQL查询,流式计算,机器学习和图算法组件 3.容易使用 支持使用Scala,Java,Python,R语言等编程,可以通过Spark shell进行交互式编程 4.运行模式多样性:可运行在独立的集群模式...

2018-07-25 10:12:14 701

原创 Spark系统知识之二

Spark系统知识之一1.Spark前言Spark一个分布式计算系统,可以替代MR编程模型 1.流计算 批处理 SparkSQL 2.只要学习spark一中语言,就可以搞定其所有的知识 3.spark全方位的软件站 4.spark同时可以读取hdfs中的数据 5.spark同时也可以和HBASE,hive等交流 6.spark现在已经完全超过hadoop了 7.hadoop...

2018-07-25 10:03:32 434

原创 Maven基础知识

Maven基础知识【待完善】1.mybatis的jar包 2.spring的jar包 3.Struts的jar包 4.版本冲突 5.maven项目的配置maven 项目管理工具 maven的使用 maven的快速入门 maven的核心知识 maven建立web项目maven是基于对象模型POM,可以通过一小段描述信息来管理项目的构建、报告和文档的软件项目管理工具ma...

2018-07-25 09:56:58 413

翻译 openTSDB详解之 UIDs和TSUIDs

[译文]openTSDB的UIDs和TSUIDs本文译自: UIDS和TSUIDs 在openTSDB中,如果你写入一个时间序列点,这个数据点总是与一个metric,以及最少一个tag名,tag值相对应。每个metric,tag名和tag值均被赋上一个唯一的标识符二进制: 0000 0000 0000 0000 0000 0001 十六进制: 0 0 0 ...

2018-07-25 09:36:17 1420 5

原创 centos下查看磁盘使用空间:

centos下查看磁盘使用空间1.df命令:NAME df - report file system disk space usageDESCRIPTION This manual page documents the GNU version of df. df displays the amount of disk space ava...

2018-07-24 17:52:22 2861

翻译 Spark基础知识

[译]Spark基础知识本文章译自http://spark.apache.org/docs/latest/sql-programming-guide.html#overview Overview Spark SQL是Spark中的一个模块,为了进行结构化数据处理。不像Spark中其他的RDD的API, 由SparkSQL提供的接口,为Spark提供了更多关于正在执行的计算和数据的结构的...

2018-07-24 17:38:11 354

原创 win10桌面壁纸锁屏目录

win10桌面壁纸锁屏文件目录:C:\Users\enmonster\AppData\Local\Packages\Microsoft.Windows.ContentDeliveryManager_cw5n1h2txyewy\LocalState\Assets

2018-07-24 17:35:26 1969

原创 Mysql编程练习之二

Mysql编程练习2.查询教师所有的单位,即不重复的depart列 select depart from teacher group by depart;注://下面这个SQL是错误的 select * from teacher group by depart; 1.去除重复列 select distinct depart from teacher; 5.查询stud...

2018-07-24 17:32:50 986

原创 mysql命令行中包含table的命令

mysql命令行中包含table的命令createalterdrop

2018-07-24 17:29:59 753

原创 Mysql中外键详解

Mysql中外键详解1.定义外键的操作 2.这个外键的名字该如何定义? 3.一个表的外键必是另一个表的主键【比如,如果不定义student中sno为主键,那么score的sno为外键就无法定义】create table student(sno varchar(20) not null primary key,cno varchar(20) not null);create ta...

2018-07-24 17:24:13 890

原创 Kettle系统知识讲解一

Kettle系统知识讲解一1.kettle简介1.数据仓库领域的一个重要概念就是数据整合。数据整合就是把不同数据库中的数据组合到一起,对外提供统一的数据视图。 2.kitchen用于执行作业,pan用于执行转换。 3.跳就是从一个作业项/步骤的中心连接到另一个作业项/步骤的一条线。在作业里跳定义的是控制流,在转换里跳定义的是数据流。 4.转换(transformation)是et...

2018-07-24 16:52:42 19256

原创 Shell脚本攻略读书笔记之三

Shell脚本攻略读书笔记之三1.环境变量Note that var = value and var=value are different. It is a usual mistake to write var = value instead of var=value. The later one is the assignment operation, whereas the ea...

2018-07-24 15:28:30 402

原创 Mysql建库语句

Mysql建库语句create database pbm character set utf8;

2018-07-23 14:34:02 5438

原创 centos 7安装maven

centos 7安装mavenwget https://archive.apache.org/dist/maven/maven-3/3.3.9/binaries/apache-maven-3.3.9-bin.tar.gztar -zxvf apache-maven-3.3.9-bin.tar.gz cd apache-maven-3.3.9pwdvi /etc/profilesour...

2018-07-21 21:15:29 243

原创 zookeeper的安装与介绍

zookeeper的安装与介绍0.前言zookeeper分布式系统的协调服务 1.hbase中也要使用到zookeeper,让HMaster知道Region Server的存在。 2.HDFS中的HA机制,两个namenode的状态互相感知 3.比如solr集群中的各个服务器如何更新配置文件。可以为用户存储数据可以为用户读取数据可以为用户提供监听通知服务。1.上传安装包...

2018-07-20 15:44:06 374

原创 大数据项目实战二之电信大数据项目

大数据项目实战之电信大数据项目生产日志->kafka采集->kafka API的控制台展示 ->HBASE(创建命名空间,创建表)->TableMapper ->Reducer -&

2018-07-20 15:26:15 23253 30

原创 zookeeper常见知识详解

zookeeper详解Zookeeper的端口 clientPort=2181,客户端连接Server的端口,即对外服务的端口【如果想要取得zookeeper的服务,就必须通过这个端口来获得服务】可以通过zookeeper的配置文件中设置。与此同时,可以通过查看进程和端口来验证。...

2018-07-20 15:22:01 297

原创 su与su-的区别

1.su与su-区别su 是切换到其他用户,但是不切换环境变量(比如说那些你用export命令查看一下,就知道两个命令的区别了) su -: 是完整的切换到一个用户环境 如何验证...

2018-07-20 15:05:46 520

原创 大数据入门知识

大数据入门知识1KB(Kilobyte 千字节) = 2^10 B = 1024 B;1MB(Megabyte 兆字节) = 2^10 KB = 1024 KB = 2^20 B;1GB(Gigabyte 吉字节) = 2^10 MB = 1024 MB = 2^30 B;1TB(Trillionbyte 太字节) = 2^10 GB = 1024 GB = 2^40 B;1PB(...

2018-07-20 14:56:49 351

原创 cmd 常用命令介绍

windows cmd命令1.cd切换到目标目录 2.dir展现出当前目录下的所有文件

2018-07-20 14:53:42 370

原创 windows中hosts文件的作用

windows中hosts文件的作用01.将一些常用的网址域名与其对应的IP地址建立一个关联“数据库” 02.用户在浏览器中输入一个网址时,系统会首先自动从Hosts文件中寻找对应的IP地址,一旦找到,系统会立即打开对应网页,如果没有找到,则系统再会将网址提交,进行DNS域名解析,再获得相应的IP地址。...

2018-07-20 14:50:31 1989

原创 linux系统危险操作

linux系统中十种危险操作,【操作一时爽,离职是下场】

2018-07-20 14:14:27 1187

原创 《Shell脚本攻略读书》笔记二之$命令的使用

shell脚本中$符号的使用是为了常用于定义变量。

2018-07-20 14:08:36 485

原创 cdh5.14.2安装spark 2.3.0parcel包

cdh5.14.2安装spark 2.3.0parcel包CDH官网介绍地址:https://www.cloudera.com/documentation/spark2/latest/topics/spark2_packaging.html下载parcel包 http://archive.cloudera.com/spark2/parcels/2.3.0.cloudera3/SPARK...

2018-07-20 14:02:09 2088 2

原创 ldap+kerberos+sentry实现验证

ldap+kerberos+sentry实现验证1)ldap的终端操作会在linux系统上创建出相应的用户。终端的操作比较危险,需要谨慎行事!2)kerberos是用来创建认证的。3)hive将表权限赋给某个用户的操作。【在mysql中将表赋权限给用户的操作是直接赋权的。比如语句:grant all privileges on hive.* to ‘hive’@’%’;】。但是hive中...

2018-07-19 15:34:13 2241 1

原创 centos 7关闭selinux

centos 7关闭selinux查看SELinux状态:getenforce临时设置SeLinux:setenforce 0永久修改Selinux为disabled:[root@localhost ~]# cat /etc/selinux/config # This file controls the state of SELinux on the system.# SEL...

2018-07-18 22:59:27 5239

原创 ldap安装及简介

ldap安装及简介【待完善】ldap基础知识1.Entry条目,也叫记录项,是LDAP中最基本的颗粒,就像字典中的词条,或者是数据库中的记录。通常对LDAP的添加、删除、更改、检索都是以条目为基本对象的。dn:每一个条目都有一个唯一的标识名(distinguished Name ,DN),如上图中一个 dn:”cn=baby,ou=marketing,ou=people,dc=...

2018-07-18 11:48:42 1238

原创 HBase架构原则

HBase架构原则1.对列族,没有内部的KeyValue之外的元数据保存。---> 列族只保存KeyValue这一种元数据2.HBase【0.92版本】中列族不宜过多的原因:每个 RegionServer 包含多个 Region,每个 Region 包含多个Store,每个 Store 包含一个 MemStore 和多个 StoreFile。在 Hbase 的表中,每个列族对应 R...

2018-07-17 09:51:31 408

原创 -bash: ulimit: open files: cannot modify limit: Operation not permitted

报错:-bash: ulimit: open files: cannot modify limit: Operation not permitted在免密登录的时候,出现-bash:ulimit错误,如下:[laowang@cdh201 ~]$ ssh laowang@cdh205.ultraman.orgThe authenticity of host 'cdh205.ultraman...

2018-07-17 09:44:56 4462

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除