自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(46)
  • 收藏
  • 关注

原创 scala数组、集合函数大全(持续更新中)

目录++、++:+:、:+/:、\:addString(b:StringBuilder):StringBuilderaddString(b:StringBuilder,sep String):StringBuilderapply(i:Int):TcharAt(index:Int):Charclone():Array[T]collect(pf: PartialFunction[A, B]):Array[B]collectFirst(pf: PartialFunction[T, B])combinations(

2020-07-19 22:15:37 468

原创 Centos7 ELK7.6.2集群搭建

Centos7 ELK7.6.2集群搭建ELK7.6.2网盘安装包下载一、单节点准备配置ip配置主机名和主机名映射关闭防火墙事件同步更换yum源(阿里云yum源)安装常用软件系统优化创建用来启动es的普通用户jdk安装二、克隆两台虚拟机配置免密登录(三台机器都要)三、安装elasticsearch上传及解压配置elasticsearch.yml将本节点的elasticsearch-7.6.2发送到另外两台机器上修改另外两台节点的elasticsearch.yml配置信息给所有节点上的elasticsearc

2020-12-18 14:49:26 978

原创 数仓搭建

业务数据存放在Mysql中,使用sqoop去mysql将数据读取到hive的表中1.执行mysql脚本/*==============================================================*//* DBMS name: MySQL 5.0 *//* Created on: 2018/11/23 1:09:10 *//*

2020-09-09 00:42:54 305

原创 CentOS7 64位安装mysql教程,亲测完美

CentOS7 64位安装mysql教程,亲测完美1.查看linux系统中是否存在mariadbrpm -e mariadb[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-X0BuVqKE-1594100826889)(C:\Users\37129\AppData\Roaming\Typora\typora-user-images\image-20200707093232899.png)]如果存在就删除,会和mysql冲突2.删除mariadbrpm -e --no

2020-09-02 16:43:51 294

原创 Hive语法总结

这里写目录标题一、建表语句二、Hive建表高阶语句-CTAS and WITH1.CTAS2.CTS3.like-只创建表结构三、表操作1.删除表2.修改表结构(Alter)三、装载数据:load1.加local关键字,原始文件位于Linux本地,执行后为拷贝数据2.没有local关键字,表示文件位于hdfs上执行后为直接移动数据四、Hive分区(重点!!!!!)1.建表2.静态分区3.动态分区4.删除分区5.查看分区数6.查看分区表结构五、分桶表1.设置Hive的分桶开关2.创建分桶表3.将查询的数据插入

2020-08-28 08:52:59 415

原创 正则表达式在python中的使用

常用正则表达式\d 代表1个数字0-9\D 代表一个非数字\w 代表1个字符0-9 A-Z a-z\W 代表1个非字符\b 匹配一个单词边界\B 匹配非单词边界[注意]\bc:表示匹配以c开头的单词c,c\b:匹配以c为开头的单词c;/Bc:不以c开头匹配单词中所有的c,c\B:不以c结为匹配单词中所有的c. 代表任意1个字符\s 代表一个空格. 代表一个.() 字符串选择器(abc|cde|def)[] 字符选择器- | ,[a-z] a到z的任意一个字符[a|b|c] [a

2020-08-25 19:27:04 225

原创 hadoop生态圈的各个启动

hive 启动:nohup hive service metastore &beeline启动:nohup service hiveserver2 &进入hive:hive进入beeline(需要再hive的bin目录下运行,否则会和spark中的beeline冲突):./beeline -u jdbc:hive2://localhost:10000 -n "root" -p "ok"如果需要解除安全模式:hdfs dfsadmin -safemode leave...

2020-08-25 17:11:45 174

原创 Kafka Streaming处理数据

用kafka streaming从kafka中拿数据,处理完数据后,再存到kafka中有两种方式第一种:直接全部写在main方法中package com.wang.events;import org.apache.kafka.common.serialization.Serdes;import org.apache.kafka.streams.*;import org.apache.kafka.streams.kstream.KStream;import java.util.ArrayLi

2020-08-25 14:43:18 357

原创 kafka 语法总结

#后台启动kafkakafka-server-start.sh -daemon config/server.properties#创建topickafka-topics.sh --create --zookeeper hadoop1:2181 --replication-factor 1 --partitions 1 --topic test20200818#查看topickafka-topics.sh --zookeeper hadoop1:2181 --list#查看topic详情kaf

2020-08-21 17:44:12 412

原创 spark、spark streaming 依赖包总结,及胖包和瘦包的配置

<properties> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.target>1.8</maven.compiler.target> <encoding>UTF-8</encoding> <scala.version>2.11.8</scala...

2020-08-21 17:32:39 1223

原创 Spark Streaming编程实例

案例一:使用Spark Streaming统计HDFS文件的词频package com.wang.mytestimport org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.DStreamimport org.apache.spark.streaming.{Seconds, StreamingContext}object HDFSInputDstreamDemo extends App { private

2020-08-21 16:36:26 288

原创 Spark读取外部数据的几种方式

一、spark读取csv文件(四种方式)//方式一:直接使用csv方法 val sales4: DataFrame = spark.read.option("header", "true").option("header", false).csv("file:///D:\\Software\\idea_space\\spark_streaming\\src\\data\\exam\\sales.csv") .withColumnRenamed("_c0", "time") .withC

2020-08-21 16:01:03 3128

原创 使用flume读取数据,sink到kafka中及hdfs中

案例一:使用flume读取数据,sink到kafka中users.sources = usersSourceusers.channels = usersChannelusers.sinks = usersSinkusers.sources.usersSource.type = spooldirusers.sources.usersSource.spoolDir = /data/flumeFile/usersusers.sources.usersSource.deserializer = LIN

2020-08-19 18:59:37 802

原创 Flume数据收集使用例子

一、架构Flume以一个或多个Agent部署运行Agent包含三个组件SourceChannelSink多层串联(拓扑结构)简单串联多路数据流合并,将多个源合并到一个目的地二、Source几种source的typeexec sourcespooling directory sourcehttp sourceavro sourcekafka sourcenetcat source1. exec source执行Linux指令,并消费指令返回的结果,如“ta

2020-08-17 19:07:02 371

原创 Spark GraphX——pregel案例:求最短路径、求最小值

一、Pregel APIdef pregel[A] (initialMsg: A, maxIter: Int = Int.MaxValue, activeDir: EdgeDirection = EdgeDirection.Out) (vprog: (VertexId, VD, A) => VD, sendMsg: EdgeTriplet[VD, ED] => Iterator[(VertexId, A)], mergeMsg: (A, A) =&gt

2020-08-11 19:52:31 1222

原创 scala语法总结——abstract抽象类

scala中可以用abstract来定义一个抽象类,抽象类不可以被创建对象,只可以被继承下面总结几个关键点:如果抽象类中的属性没有赋值,那么子类中一定要重写父类中的属性,如果父类中的属性时val定义的,那么子类中重写的属性必须要加override关键字,如果是var定义的可以不用加override(推荐都加上override)如果抽象类中的方法没有方法体,那说明该方法时抽象方法,被子类继承时需要重写所有的抽象方法,可以不用加override(推荐都加上),如果子类想要重写父类中的普通方法,那么必须要

2020-07-30 22:29:42 480

原创 Scala函数语法——implicit 隐式参数、隐式函数、隐式类

我创建两个scala文件,Impliciteg用来定义隐式,ImplicitDemo用来做隐式转换ImplicitDemo中需要导入Impliciteg这个包:import com.wang.scala2.Impliciteg._一、隐式参数原则:1.在使用隐式参数是需要先定义一个隐式参数,否则会报错2.相同类型的隐式参数只能定义一个,否则会产生异义,会报错3.隐式参数如果不重新赋值他会默认用声明的//定义隐式参数implicit val num1:Int=10def fun(implic

2020-07-28 11:01:53 325

原创 Hive的调优

本地模式-- 通过以下设置开启本地模式SET hive.exec.mode.local.auto=true; --default false SET hive.exec.mode.local.auto.inputbytes.max=50000000; SET hive.exec.mode.local.auto.input.files.max=5; --default 4Job必须满足以下条件才能在本地模式下运行Job总输入大小小于 hive.exec.mode.local.auto. i.

2020-07-27 22:38:18 180

原创 Hadoop总结之HDFS-Client端向HDFS中读写数据的流程

一、Client向HDFS中存入数据1.客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。2.NameNode返回是否可以上传。不能上传会返回异常。3.确定可以上传,客户端请求第一个 block上传到哪几个datanode服务器上。4.NameNode返回3个datanode节点,假定分别为dn1、dn2、dn3。5.客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求

2020-07-26 21:54:13 1765

原创 Sqoop数据迁移用法详解

安装sqoop文档见之前的Sqoop数据迁移安装详细教程准备工作一、MySQL -》HDFS需要导入两个jar包cp /data/java-json.jar /opt/soft/sqoop-1.4.6-cdh5.14.2/lib/使用where过滤sqoop import \--connect jdbc:mysql://localhost:3306/retail_db \--driver com.mysql.jdbc.Driver \--table orders \--where "

2020-07-23 13:19:58 517

原创 Sqoop数据迁移安装详细教程

一、sqoop安装安装 Sqoop 的前提是已经具备 Java 和 Hadoop、Hive、ZooKeeper、HBase 的 环境。1.1 下载并解压上传安装包 sqoop-1.4.6-cdh5.14.2.tar.gz 到虚拟机中解压 sqoop 安装包到指定目录, tar -zxf sqoop-1.4.6-cdh5.14.2.tar.gz -C /opt/soft/重命名mv /opt/soft/sqoop-1.4.6-cdh5.14.2/ /opt/soft/sqoop146配置环境变量

2020-07-23 11:01:11 191

原创 hadoop退出安全模式

ERROR tool.ImportTool: Import failed: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.Safe ModeException): Cannot delete /tmp/hadoop-yarn/staging/root/.staging/j

2020-07-22 09:33:13 960

原创 Hbase常用SQL命令

这里写目录标题Hbase常用SQL命令1.启动hbase2.进入hbase3.hbase查看数据表4.hbase建表语句5.hbase禁用表&启用表6.hbase添加单行数据7.hbase文档添加数据8.hbase扫描表9.hbase获取数据10.hbase删除数据11.hbase修改表alter12.删除表Hbase常用SQL命令1.启动hbase1.如果配置了hbase的环境变量,就直接start-hbase.sh2.如果没有设置就进入hbase的bin目录下启动start-hbase.

2020-07-21 01:46:26 2089

原创 Hbase物理架构详解

Hbase体系结构HBase同样采用Master/Slaves的主从服务器结构,他由一个HMaster和多个HRegionServer构成而所有服务器都是通过Zookeeper协调并处理个服务器运行期间可能遇见的错误HMaster负责管理所有的HRegionServer,各HRegionServer负责存储许多HRegion,每一个HRegion是对HBase逻辑表的分块。如下图所示:1.HRegionHBase使用表存储数据集,当表的大小超过存储值设定时,HBase会自动将表划分为不同的区域(Re

2020-07-20 22:33:18 721

原创 Maven中打胖包和瘦包

1.把如下代码复制到porm.xml中的path,如下<build> <!--jar包的首名称--> <finalName>myduaf</finalName> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>2.3.2</vers

2020-07-14 19:00:43 1500

原创 创建Maven项目后,修改jdk为1.8

1.修改porm.xml文件中的2.修改structure中的Modules中的Modules SDK,改为1.8应用并ok3.修改settings.xml中的Java Compiler

2020-07-14 18:09:38 314

原创 hive错误总结

一、错误信息:Error: Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.FunctionTask (state=08S01,code=1)今天在导入jar包后,创建hive函数时报错,原因时没删除签名文件,一下是解决方法1.安装zipyum install -y zip2.删除签名文件zip -d jar包地址 'META-I

2020-07-13 23:03:41 1073 2

原创 Hive(一)四种排序的总结

Hive中四种排序的总结一、order by 可以指定desc降序、asc升序order by会对输入做全局排序,因此只有一个Reducer(多个Reducer无法保证全局有序),然而只有一个Reducer,会导致当输入规模较大时,消耗较长的计算时间。不管设置多少个reduceTasks都只会执行一个reduce。二、sort bysort by不是全局排序,其在数据进入reducer前完成排序,通过combiner完成排序,因此,如果用sort by进行排序,并且设置mapred.reduce

2020-07-12 22:53:08 342

原创 全网最详细的Mapreduce运行原理

Mapredcue原理详解基本的运行过程

2020-07-05 22:01:46 254

原创 Mapreduce源码分析(二):MapTask及LineRecordReader读取文件的工作机制,源码详解

MapTask及LineRecordReader读取文件的工作机制,源码详解MapTask当ApplicationMaster创建一个MapTask的时候,MapTask会构造一个NewTrackingRecordReader对象该对象中有个属性是private final org.apache.hadoop.mapreduce.RecordReader<K,V> real;,创建对象时会调用构造方法 NewTrackingRecordReader(org.apache.hadoop.m

2020-07-05 09:23:38 466

原创 Mapreduce源码分析(一):FileInputFormat切片机制,源码详解

FileInputFile切片机制,源码详解1.InputFormat:抽象类只有两个抽象方法public abstract List<InputSplit> getSplits(JobContext var1) throws IOException, InterruptedException;public abstract RecordReader<K, V> createRecordReader(InputSplit var1, TaskAttemptContext v

2020-07-04 16:44:51 484

原创 搭建集群及Hadoop+Hive+ZoopKeeper+hbase环境搭建

一、安装hadoop见之前的Hadoop安装及配置【注】有几个需要修改的地方、拖入安装包放到software中把所有压缩包解压到/opt的目录下,除了hadoop-native这个包

2020-06-28 17:10:33 705

原创 使用Docker安装Mysql数据库,及国内常用docker镜像地址

1.安装docker,输入:yum install -y docker2. 配置docker镜像地址,输入:vi /etc/docker/daemon.json,在配置文件中写入{"registry-mirrors": ["http://hub-mirror.c.163.com"]}#推荐几个国内常用的docker镜像地址https://registry.docker-cn.comhttp://hub-mirror.c.163.comhttps://docker.mirrors.ustc.ed

2020-06-28 15:43:56 4353

原创 单节点下安装及配置Hadoop

一、安装Hadoop1.在VBox中创建Liniux系统(CentOS 7)(见之前的Centos7的创建教程)2.输入:vi /etc/sysconfig/network-scripts/ifcfg-enp0s3配置如下信息:BOOTPROTO=staticONBOOT=yesIPADDR=192.168.56.1013.配置完网卡后需要重启网络,输入:systemctl restart network4.把防火墙关掉/杀死,输入:systemctl disable firewalld5

2020-06-26 00:04:54 377

原创 VMware Workstation安装Conteos7

一、下载及安装VMwareVMware下载:链接:https://pan.baidu.com/s/12SkQfY0Ri_fzZIJzMFYjKA提取码:wtxu解压后安装,里面包含密钥二、安装Centos7这是我用的版本点击【创建新的虚拟机】弹出虚拟机安装向导,默认选择经典,点击下一步选择第三个,点击下一步客户机操作系统选择第二个,版本选择CentOS 7 64位,点击下一步更改虚拟机地址,更改安装目录,点击下一步选择最大磁盘大小,默认20GB,选择第二个【将虚拟机磁盘拆

2020-06-25 19:50:23 662

原创 hadoop fs常用操作命令

对hdfs操作的命令格式是Hadoop fs/命令选项。选项名称使用格式含义【常用】-ls -ls <路径> 查看指定路径的当前目录结构-lsr -lsr <路径> 递归查看指定路径的目录结构-mkdir -mkdir <hdfs 路径> 创建空白文件夹-touchz -touchz <文件路径> 创建空白文件-mv -mv <源路径> <目的路径> 移动-cp -cp <源路径> <目的路径>

2020-06-24 15:54:01 257

原创 Elasticsearch深入浅出

一、简介Elasticsearch 是一个高度可扩展的开源全文搜索和分析引擎。它允许您快速,近实时地存储,搜索和分析大量数据。它通常用作底层引擎、技术,为具有复杂搜索功能和要求的应用程序提供支持。Elasticsearch 也使用 Java 开发并使用 Lucene 作为其核心来实现所有索引和搜索的功能,但是它的目的是通过简单的 RESTful API 来隐藏 Lucene 的复杂性,从而让全文搜索变得简单。ES 是基于Lucene这个非常成熟的索引方案,另加上一些分布式的实现:集群,分片,复制等。

2020-06-23 23:26:08 275

原创 Shell脚本学习总结

bash shell脚本中变量无法存储布尔值,布尔值只能用来条件判断$?写在最上面没有执行函数代表状态,写在执行函数后,表示函数返回结果条件中非空都为true(除了false)条件判断变量1. 变量的声明及使用声明:变量名=值使用:${变量名}#声明文件编写格式#!/bin/bashmy_name="xioawang"varA=1234#两种定义都可以,但是为了防止字符串拼接引起的误读,最好用{}大括号包裹住echo ${my_name}echo $my_name# 环境变量可

2020-06-22 23:58:50 196

原创 ELK集群的搭建

ELK集群的搭建一、复制虚拟机二、修改主机名和主机列表因为是复制的所以hostname和ip地址都和原主机是相同的,不能直接连接MobaXterm所以需要修改主机名和ip地址,我复制了两个,所以两个复制的都需要修改1.网络地址修改(1)输入:vi /etc/sysconfig/network-script/ifcfg-enp0s3 修改网络ip地址test_elk002test_elk0032.主机名修改(1)hostnamectl set-hostname test01(

2020-06-21 18:27:26 186

原创 Linux系统下ELK的安装配置

Linux系统下ELK的安装配置一、ES安装前的准备(elk安装包版本要求一致)下载:elasticsearch-6.2.2.tar.gzelasticsearch-head-master.zipkibana-6.2.2-linux-x86_64.tar.gzlogstash-6.2.2.tar.gznode-v8.9.1-linux-x64.tar.gzjdk-8u221-linux-x64.tar.gz二、ELK的安装1.把下载好的安装包,拖拽到/software目录中2.输入:

2020-06-18 20:20:04 286

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除