自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

布里啾啾迪布利多的博客

old iron double click six six six !

  • 博客(51)
  • 收藏
  • 关注

原创 SHELL实现下载并校验FTP服务器上的文件

最近在做一个大数据风控的项目,需要从ftp服务器上下载文件到本地服务器,于是写了一个通用脚本与大家分享一下。具体的需求是这样的:一、服务器信息:ftp服务器IP:192.168.216.121登陆用户 :ftp_test登陆密码 :ftp_test数据路径 :/home/ftp_test/数据日期二、实现要求:1、shell实现2、文件获取后对文件的大小和...

2019-04-01 19:16:35 1388

原创 ElasticSearch在linux上安装部署

一.安装准备工作安装参考文档:ELK官网:https://www.elastic.co/ELK官网文档:https://www.elastic.co/guide/index.htmlELK中文手册:https://www.elastic.co/guide/cn/elasticsearch/guide/current/index.htmlELK中文社区:https://elasticsearch.c...

2018-03-17 14:10:29 8097 3

原创 Phoenix的简介以及安装部署

1.什么是Phoenix? phoenix,中文译为“凤凰”,很美的名字。Phoenix是由saleforce.com开源的一个项目,后又捐给了Apache基金会。它相当于一个Java中间件,提供jdbc连接,操作hbase数据表。Phoenix是一个HBase的开源SQL引擎。你可以使用标准的JDBC API代替HBase客户端API来创建表,插入数据,查询你的HBase数据。Phoenix的团...

2018-03-16 14:49:13 3382

原创 程序员高逼格指南

一.开始准备工作1.首先,你的电脑不一定要高配置,但是必须得是双屏,而且越大越好,如果能一个横屏一个竖屏那就更好了。这样,一个用来查资料,一个用来写代码。总之要显得信息量很大,效率特别高。2.再次,你的椅子不一定要舒服,但是一定要可以半躺下。3.然后,要有大量便签,最好是各种颜色的,用来记录每天要完成的事务。尽量沿着电脑屏幕边框贴满,这样,更能显出有很多事情的样子。4.工具书,机械工业,orell...

2018-03-15 23:25:24 1262

原创 SSH协议的简介和使用

一.SSH协议简介:SSH 为 Secure Shell 的缩写,是一种网络安全协议,专为远程登录会话和其他网络服务提供安全性的协议。通过使用 SSH,可以把传输的数据进行加密,有效防止远程管理过程中的信息泄露问题。从客户端来看,有两种验证方式:基于密码、基于密钥1. 用户名密码验证方式说明:(1) 当客户端发起 ssh 请求,服务器会把自己的公钥发送给用户;(2) 用户会根据服务器发来的公钥对密...

2018-03-15 22:56:16 5626

原创 机器学习中涉及到的大学高等数学的一些知识

高等数学常见函数求导导数运算法则复合函数求导方向导数与梯度(难点)凸集与凸函数一元函数求极值多元函数求极值(了解)拉格朗日乘子法泰勒公式展开空间解析几何和向量代数线性代数 矩阵的定义,矩阵的转置单位矩阵,三角矩阵,对称矩阵向量内积,相关性正交向量组,标准正交基,正交矩阵特征值分解概率论事件的关系与运算条件概率,全概率公式,贝叶斯公式随机变量的期望,方差协方差,相关系数,协方差矩阵概率分布:0-1分...

2018-03-15 14:32:19 3478 1

原创 数据仓库的分层

一.为什么要对数据仓库进行分层?1.用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据.2.如果不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大.3.通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的处理逻辑...

2018-03-15 14:15:55 4894

原创 一键启动和关闭zookeeper和kafka集群脚本

start_kafka.sh#!/bin/shfor host in node-1 node-2 node-3do        ssh $host"source/etc/profile;nohup /export/servers/kafka/binkafka-server-start.sh        /export/servers/kafka/config/server.properties...

2018-03-15 13:45:07 7205 2

原创 SparkRDD函数详解

1、RDD操作详解启动spark-shellspark-shell --master spark://node-1:70771.1 基本转换1)      mapmap是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。 任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。举例:scala> val a =sc.parallelize(1 to 9, 3)scala&gt...

2018-03-12 21:13:45 6833 1

原创 Spark RDD

### 一、RDD概述* 1、什么是RDD  * RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。    * Dataset      * 就是一个集合,用于存放数据    * Distributed       * 它的数据是分布式存储的,便于分布式计算    * Re...

2018-03-12 21:08:05 1326

原创 Spark角色介绍

Spark是基于内存计算的大数据并行计算框架。因为其基于内存计算,比Hadoop中MapReduce计算框架具有更高的实时性,同时保证了高效容错性和可伸缩性。从2009年诞生于AMPLab到现在已经成为Apache顶级开源项目,并成功应用于商业集群中,学习Spark就需要了解其架构。Spark架构图如下:Spark架构使用了分布式计算中master-slave模型,master是集群中含有mast...

2018-03-12 20:54:01 3119

原创 Spark HA高可用部署

1. 高可用部署说明SparkStandalone集群是Master-Slaves架构的集群模式,和大部分的Master-Slaves结构集群一样,存在着Master单点故障的问题。如何解决这个单点故障的问题,Spark提供了两种方案:(1)基于文件系统的单点恢复(Single-NodeRecovery with Local File System)。      主要用于开发或测试环境。当spar...

2018-03-12 20:48:40 1228

原创 Spark集群安装

1、下载spark安装包下载地址spark官网:http://spark.apache.org/downloads.html这里我们选择spark-2.0.2-bin-hadoop2.7这个版本2、上传安装包到服务中这里我们配置三台机器分别是node-1,node-2,node-3,先在node-1中配好后再分发到另外两台机器上.3、规划安装目录  /export/servers4、解压安装包到指...

2018-03-12 20:45:00 2049

原创 yum常用命令

安装软件(以foo-x.x.x.rpm为例):yum install foo-x.x.x.rpm删除软件:yum remove foo-x.x.x.rpm或者yum erase foo-x.x.x.rpm升级软件:yum upgrade foo或者yum update foo查询信息:yum info foo搜索软件(以包含foo字段为例):yum search foo显示软件包依赖关系:yum ...

2018-03-12 18:18:09 1093

原创 Linux系统的启动级别详解

Linux系统有7个运行级别(runlevel)运行级别0:系统停机状态,系统默认运行级别不能设为0,否则不能正常启动运行级别1:单用户工作状态,root权限,用于系统维护,禁止远程登陆运行级别2:多用户状态(没有NFS)运行级别3:完全的多用户状态(有NFS),登陆后进入控制台命令行模式运行级别4:系统未使用,保留运行级别5:X11控制台,登陆后进入图形GUI模式运行级别6:系统正常关闭并重启,...

2018-03-12 18:16:21 2145

原创 CentOS自动同步互联网服务器时间

说明:由于大数据中,集群对时间要求很高,所以集群内主机要经常同步时间(包括时区的同步)。常用的手动进行时间的同步 date -s "2016-06-06 06:06:06"            注:这个命令要在集群中统一执行或者网络同步: yum install ntpdate ntpdate cn.pool.ntp.org集群时间手动联网同步上海标准时间:ntpdate -u ntp.api....

2018-03-12 18:13:02 3541

原创 系统盘的制作和安装系统的操作流程

制作系统盘:要求一个8g及其以上的U盘,做完系统盘后,U盘里面原先的数据会丢失,因此U盘里面尽量不要放重要的数据要求:刻录软件(nero, utrliso等刻录软件均可),  系统镜像http://www.itellyou.cn/刻录软件在我发的资料里面有,下面的链接也可以进行下载:ultraISO链接:https://pan.baidu.com/s/1eTeIGee密码:v249Nero链接:链...

2018-03-12 11:45:56 8410

原创 kafka与flume的整合

实现flume监控某个目录下面的所有文件,然后将文件收集发送到kafka消息系统中第一步:flume下载地址http://archive.apache.org/dist/flume/1.8.0/apache-flume-1.8.0-bin.tar.gz第二步:上传解压flume第三步:配置flume.conf#为我们的source channel  sink起名a1.sources = r1a1....

2018-03-11 23:54:25 1390

原创 kafka的配置文件的详细说明

Server.properties配置文件说明:#broker的全局唯一编号,不能重复broker.id=0#用来监听链接的端口,producer或consumer将在此端口建立连接port=9092#处理网络请求的线程数量num.network.threads=3#用来处理磁盘IO的现成数量num.io.threads=8#发送套接字的缓冲区大小socket.send.buffer.bytes=...

2018-03-11 23:51:49 3381

原创 kafka的配置文件说明

Server.properties配置文件说明#broker的全局唯一编号,不能重复broker.id=0#用来监听链接的端口,producer或consumer将在此端口建立连接port=9092#处理网络请求的线程数量num.network.threads=3#用来处理磁盘IO的现成数量num.io.threads=8#发送套接字的缓冲区大小socket.send.buffer.bytes=1...

2018-03-11 23:44:02 2007

原创 kafka的集群安装

1.下载kafka安装压缩包http://archive.apache.org/dist/kafka/2.上传压缩包并解压这里统一使用 kafka_2.11-1.0.0.tgz 这个版本3.修改kafka配置文件第一台机器修改kafka配置文件server.propertiesbroker.id=0num.network.threads=3num.io.threads=8socket.send.b...

2018-03-11 23:35:19 2465

原创 Spark Streaming整合kafka实战

kafka作为一个实时的分布式消息队列,实时的生产和消费消息,这里我们可以利用SparkStreaming实时计算框架实时地读取kafka中的数据然后进行计算。在spark1.3版本后,kafkaUtils里面提供了两个创建dstream的方法,一种为KafkaUtils.createDstream,另一种为KafkaUtils.createDirectStream。1.KafkaUtils.cr...

2018-03-11 23:14:10 24427 2

原创 Spark Streaming整合flume实战

flume作为日志实时采集的框架,可以与SparkStreaming实时处理框进行对接,flume实时产生数据,sparkStreaming做实时处理。Spark Streaming对接FlumeNG有两种方式,一种是FlumeNG将消息Push推给Spark Streaming,还有一种是Spark Streaming从flume 中Poll拉取数据。1.poll方式(1)安装flume1.6以...

2018-03-11 22:36:22 6378 1

原创 DStream操作实战:4.SparkStreaming开窗函数统计一定时间内的热门词汇

package cn.testdemo.dstream.socketimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.rdd.RDDimport org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.s...

2018-03-11 22:12:50 2374

原创 DStream操作实战:3.SparkStreaming开窗函数reduceByKeyAndWindow,实现单词计数

 package cn.testdemo.dstream.socket  import org.apache.spark.{SparkConf, SparkContext}  import org.apache.spark.streaming.{Seconds, StreamingContext}  import org.apache.spark.streaming.dstream.{DStrea...

2018-03-11 22:10:23 2163

原创 DStream操作实战:2.SparkStreaming接受socket数据,实现单词计数累加

package cn.testdemo.dstream.socket    import org.apache.spark.{SparkConf, SparkContext}    import org.apache.spark.streaming.{Seconds, StreamingContext}    import org.apache.spark.streaming.dstream.{D...

2018-03-11 22:08:30 2075

原创 DStream操作实战:1.SparkStreaming接受socket数据,实现单词计数WordCount

package cn.testdemo.dstream.socket    import org.apache.spark.{SparkConf, SparkContext}    import org.apache.spark.streaming.{Seconds, StreamingContext}    import org.apache.spark.streaming.dstream.{D...

2018-03-11 22:06:01 1910

转载 Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍

1、Spark Streaming简介1.1 概述Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets,从数据源获取数据之后,可以使用诸如map、reduce、join和window等高级函数进行复杂算法的处理...

2018-03-11 19:22:08 1664

原创 Hadoop2.7.4集群安装

Hadoop2.7.4集群安装说明Hadoop运行在Java虚拟机上,需要安装JDK,参见Linux下安装JDK8本次搭建的Hadoop集群没有HA配置。集群节点分布信息hdfs namenode node1hdfs secondary node1hdfs datanode node1hdfs datanode node2hdfs datanode node3yarn resourceManage...

2018-03-10 23:57:28 1854 1

原创 Linux安装zookeeper 3.4.9

下载zookeeper上传到node1,node2,node3(这里以三台虚拟机为例)依次解压tar -zxvf zookeeper-3.4.9.tar.gz -C /export/servers/cd /export/servers/ //自定义的安装目录ln -s zookeeper-3.4....

2018-03-10 23:42:45 3189 1

原创 Linux Mysql 的安装及远程权限开放

01 安装服务端和客户端(注:这里直接yum安装,也可以上传下载好的tar.gz包安装)yum install mysql-server -yyum install mysql -y02 启动服务端service mysqld start03 启动客户端mysql04 修改root密码use mysql;UPDATE user SET Password = PASSWORD('root'...

2018-03-10 23:37:30 1534 1

原创 Linux下安装JDK8

下载在oracle的官网上下载想要的jdk版本,请选择xxx.tar.gz的安装包.上传使用rz命令上传安装包到Linux系统上传目录为 /export/apps/ ,没有这个目录就新建,这个目录自定义即可.解析使用tar -zxvf xxx.tar.gz 命令解压安装包使用mv 命令,将安装包的名称重命名为/export/apps/jdk配置环境变量编辑 /etc/profile 文件,按G跳到...

2018-03-10 23:27:11 4264 1

原创 Linux超详细的常用命令大全!

系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示CPU info...

2018-03-10 23:17:01 873 1

原创 HIVE中ORC表的压缩比较

ORC支持三种压缩:ZLIB,SNAPPY,NONE。最后一种就是不压缩,orc默认采用的是ZLIB压缩。1.创建一个不压缩的ORC存储方式表create table test_orc_none (track_time string,url string,ip string)row format delimited fields terminated by '\t'stored as orc tblproperties("orc.compress"="NONE") ;insert in

2020-10-28 19:03:37 5215

原创 UE使用技巧之---去空格

使用UE去除文档或脚本中的多余空格:按ctrl+r会出现查找和替换的框1.删除空格: [ ^t]+$2.删除空行: %[ ^t]++^p3.删除行尾空格: [ ^t]+$4.删除行首空格: %[ ^t]+...

2019-05-17 11:08:07 9114

原创 Centos6.x下搭建ftp服务器和ftp客户端实现文件的上传和下载

1.首先要查看你的服务器上是否安装有vsftpd软件命令是这玩意:rpm -qa |grepvsftpd我的服务器上显示了一堆这玩意,一瞅就是没安装过。2.接下来直接用yum安装,命令是这玩意:yum-yinstallvsftpd至此整个软件已经安装完事了,然后我们要修改一哈它的配置文件。3.由于是用yum安装的所以它的安装目录默认在/etc/vsftpd/...

2019-03-31 00:29:16 1099

原创 CRT全局设置默认的背景色以及UTF-8的编码格式

1.修改默认背景色打开CRT的Options选项-->Global Options-->Default Session-->Edit Default Settings...-->Emulation-->Terminal--选择linux,然后点ok.2.修改全局的编码格式打开CRT的Options选项-->Global Options--...

2018-07-31 19:05:12 7162

原创 CentOS6.5下安装mysql

1.安装介质Mysql    http://dev.mysql.com/downloads/mysql/     本次使用mysql-5.6.29-linux-glibc2.5-x86_64.tar.gz2.安装过程2.1主机配置a)关闭防火墙service iptables stop chkconfig iptables off chkconfig --list ip...

2018-07-28 15:54:07 225

原创 SpringBoot启动报错Failed to auto-configure a DataSource 的问题解决!

今天搭了个springboot的小demo,但是启动的时候报了这个错误:scription:Failed to auto-configure a DataSource: 'spring.datasource.url' is not specified and no embedded datasource could be auto-configured.Reason: Failed to ...

2018-07-20 16:36:21 2599 3

原创 新建maven项目解决pom.xml头部 http://maven.apache.org/xsd/maven-4.0.0.xsd报错的问题

今天,用springboot新建个项目报了个这个问题,看了一下控制台的错误输出日志,有两个jar包报错.解决方案:1.找到maven仓库的配置地址2.找到仓库里对应的显示报错的jar包,将其最内层的文件夹删除3.然后回到eclipse,在项目上右键选择Maven然后选择Update Project4.问题解决!...

2018-07-20 16:24:08 7625

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除