Messi的小迷弟-CSDN博客

原创 scala数组、集合函数大全(持续更新中)

目录++、++:+:、:+/:、\:addString(b:StringBuilder):StringBuilderaddString(b:StringBuilder,sep String):StringBuilderapply(i:Int):TcharAt(index:Int):Charclone():Array[T]collect(pf: PartialFunction[A, B])：Array[B]collectFirst(pf: PartialFunction[T, B])combinations(

2020-07-19 22:15:37 468

原创 Centos7 ELK7.6.2集群搭建

Centos7 ELK7.6.2集群搭建ELK7.6.2网盘安装包下载一、单节点准备配置ip配置主机名和主机名映射关闭防火墙事件同步更换yum源(阿里云yum源)安装常用软件系统优化创建用来启动es的普通用户jdk安装二、克隆两台虚拟机配置免密登录（三台机器都要）三、安装elasticsearch上传及解压配置elasticsearch.yml将本节点的elasticsearch-7.6.2发送到另外两台机器上修改另外两台节点的elasticsearch.yml配置信息给所有节点上的elasticsearc

2020-12-18 14:49:26 978

原创数仓搭建

业务数据存放在Mysql中，使用sqoop去mysql将数据读取到hive的表中1.执行mysql脚本/*==============================================================*//* DBMS name: MySQL 5.0 *//* Created on: 2018/11/23 1:09:10 *//*

2020-09-09 00:42:54 305

原创 CentOS7 64位安装mysql教程，亲测完美

CentOS7 64位安装mysql教程，亲测完美1.查看linux系统中是否存在mariadbrpm -e mariadb[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-X0BuVqKE-1594100826889)(C:\Users\37129\AppData\Roaming\Typora\typora-user-images\image-20200707093232899.png)]如果存在就删除，会和mysql冲突2.删除mariadbrpm -e --no

2020-09-02 16:43:51 294

原创 Hive语法总结

这里写目录标题一、建表语句二、Hive建表高阶语句-CTAS and WITH1.CTAS2.CTS3.like-只创建表结构三、表操作1.删除表2.修改表结构(Alter)三、装载数据：load1.加local关键字，原始文件位于Linux本地，执行后为拷贝数据2.没有local关键字，表示文件位于hdfs上执行后为直接移动数据四、Hive分区（重点！！！！！）1.建表2.静态分区3.动态分区4.删除分区5.查看分区数6.查看分区表结构五、分桶表1.设置Hive的分桶开关2.创建分桶表3.将查询的数据插入

2020-08-28 08:52:59 415

原创正则表达式在python中的使用

常用正则表达式\d 代表1个数字0-9\D 代表一个非数字\w 代表1个字符0-9 A-Z a-z\W 代表1个非字符\b 匹配一个单词边界\B 匹配非单词边界[注意]\bc:表示匹配以c开头的单词c，c\b：匹配以c为开头的单词c；/Bc：不以c开头匹配单词中所有的c，c\B：不以c结为匹配单词中所有的c. 代表任意1个字符\s 代表一个空格. 代表一个.() 字符串选择器(abc|cde|def)[] 字符选择器- | ,[a-z] a到z的任意一个字符[a|b|c] [a

2020-08-25 19:27:04 225

原创 hadoop生态圈的各个启动

hive 启动:nohup hive service metastore &beeline启动：nohup service hiveserver2 &进入hive：hive进入beeline(需要再hive的bin目录下运行，否则会和spark中的beeline冲突)：./beeline -u jdbc:hive2://localhost:10000 -n "root" -p "ok"如果需要解除安全模式：hdfs dfsadmin -safemode leave...

2020-08-25 17:11:45 174

原创 Kafka Streaming处理数据

用kafka streaming从kafka中拿数据，处理完数据后，再存到kafka中有两种方式第一种：直接全部写在main方法中package com.wang.events;import org.apache.kafka.common.serialization.Serdes;import org.apache.kafka.streams.*;import org.apache.kafka.streams.kstream.KStream;import java.util.ArrayLi

2020-08-25 14:43:18 357

原创 kafka 语法总结

#后台启动kafkakafka-server-start.sh -daemon config/server.properties#创建topickafka-topics.sh --create --zookeeper hadoop1:2181 --replication-factor 1 --partitions 1 --topic test20200818#查看topickafka-topics.sh --zookeeper hadoop1:2181 --list#查看topic详情kaf

2020-08-21 17:44:12 412

原创 spark、spark streaming 依赖包总结，及胖包和瘦包的配置

<properties> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.target>1.8</maven.compiler.target> <encoding>UTF-8</encoding> <scala.version>2.11.8</scala...

2020-08-21 17:32:39 1223

原创 Spark Streaming编程实例

案例一：使用Spark Streaming统计HDFS文件的词频package com.wang.mytestimport org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.DStreamimport org.apache.spark.streaming.{Seconds, StreamingContext}object HDFSInputDstreamDemo extends App { private

2020-08-21 16:36:26 288

原创 Spark读取外部数据的几种方式

一、spark读取csv文件（四种方式）//方式一：直接使用csv方法 val sales4: DataFrame = spark.read.option("header", "true").option("header", false).csv("file:///D:\\Software\\idea_space\\spark_streaming\\src\\data\\exam\\sales.csv") .withColumnRenamed("_c0", "time") .withC

2020-08-21 16:01:03 3128

原创使用flume读取数据，sink到kafka中及hdfs中

案例一：使用flume读取数据，sink到kafka中users.sources = usersSourceusers.channels = usersChannelusers.sinks = usersSinkusers.sources.usersSource.type = spooldirusers.sources.usersSource.spoolDir = /data/flumeFile/usersusers.sources.usersSource.deserializer = LIN

2020-08-19 18:59:37 802

原创 Flume数据收集使用例子

一、架构Flume以一个或多个Agent部署运行Agent包含三个组件SourceChannelSink多层串联(拓扑结构)简单串联多路数据流合并，将多个源合并到一个目的地二、Source几种source的typeexec sourcespooling directory sourcehttp sourceavro sourcekafka sourcenetcat source1. exec source执行Linux指令，并消费指令返回的结果，如“ta

2020-08-17 19:07:02 371

原创 Spark GraphX——pregel案例：求最短路径、求最小值

一、Pregel APIdef pregel[A] (initialMsg: A, maxIter: Int = Int.MaxValue, activeDir: EdgeDirection = EdgeDirection.Out) (vprog: (VertexId, VD, A) => VD, sendMsg: EdgeTriplet[VD, ED] => Iterator[(VertexId, A)], mergeMsg: (A, A) =&gt

2020-08-11 19:52:31 1222

原创 scala语法总结——abstract抽象类

scala中可以用abstract来定义一个抽象类，抽象类不可以被创建对象，只可以被继承下面总结几个关键点：如果抽象类中的属性没有赋值，那么子类中一定要重写父类中的属性，如果父类中的属性时val定义的，那么子类中重写的属性必须要加override关键字，如果是var定义的可以不用加override（推荐都加上override）如果抽象类中的方法没有方法体，那说明该方法时抽象方法，被子类继承时需要重写所有的抽象方法，可以不用加override（推荐都加上），如果子类想要重写父类中的普通方法，那么必须要

2020-07-30 22:29:42 480

原创 Scala函数语法——implicit 隐式参数、隐式函数、隐式类

我创建两个scala文件，Impliciteg用来定义隐式，ImplicitDemo用来做隐式转换ImplicitDemo中需要导入Impliciteg这个包：import com.wang.scala2.Impliciteg._一、隐式参数原则：1.在使用隐式参数是需要先定义一个隐式参数，否则会报错2.相同类型的隐式参数只能定义一个，否则会产生异义，会报错3.隐式参数如果不重新赋值他会默认用声明的//定义隐式参数implicit val num1:Int=10def fun(implic

2020-07-28 11:01:53 325

原创 Hive的调优

本地模式-- 通过以下设置开启本地模式SET hive.exec.mode.local.auto=true; --default false SET hive.exec.mode.local.auto.inputbytes.max=50000000; SET hive.exec.mode.local.auto.input.files.max=5; --default 4Job必须满足以下条件才能在本地模式下运行Job总输入大小小于 hive.exec.mode.local.auto. i.

2020-07-27 22:38:18 180

原创 Hadoop总结之HDFS-Client端向HDFS中读写数据的流程

一、Client向HDFS中存入数据1.客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。2.NameNode返回是否可以上传。不能上传会返回异常。3.确定可以上传，客户端请求第一个 block上传到哪几个datanode服务器上。4.NameNode返回3个datanode节点，假定分别为dn1、dn2、dn3。5.客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求

2020-07-26 21:54:13 1765

原创 Sqoop数据迁移用法详解

安装sqoop文档见之前的Sqoop数据迁移安装详细教程准备工作一、MySQL -》HDFS需要导入两个jar包cp /data/java-json.jar /opt/soft/sqoop-1.4.6-cdh5.14.2/lib/使用where过滤sqoop import \--connect jdbc:mysql://localhost:3306/retail_db \--driver com.mysql.jdbc.Driver \--table orders \--where "

2020-07-23 13:19:58 517

原创 Sqoop数据迁移安装详细教程

一、sqoop安装安装 Sqoop 的前提是已经具备 Java 和 Hadoop、Hive、ZooKeeper、HBase 的环境。1.1 下载并解压上传安装包 sqoop-1.4.6-cdh5.14.2.tar.gz 到虚拟机中解压 sqoop 安装包到指定目录， tar -zxf sqoop-1.4.6-cdh5.14.2.tar.gz -C /opt/soft/重命名mv /opt/soft/sqoop-1.4.6-cdh5.14.2/ /opt/soft/sqoop146配置环境变量

2020-07-23 11:01:11 191

原创 hadoop退出安全模式

ERROR tool.ImportTool: Import failed: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.Safe ModeException): Cannot delete /tmp/hadoop-yarn/staging/root/.staging/j

2020-07-22 09:33:13 960

原创 Hbase常用SQL命令

这里写目录标题Hbase常用SQL命令1.启动hbase2.进入hbase3.hbase查看数据表4.hbase建表语句5.hbase禁用表&启用表6.hbase添加单行数据7.hbase文档添加数据8.hbase扫描表9.hbase获取数据10.hbase删除数据11.hbase修改表alter12.删除表Hbase常用SQL命令1.启动hbase1.如果配置了hbase的环境变量，就直接start-hbase.sh2.如果没有设置就进入hbase的bin目录下启动start-hbase.

2020-07-21 01:46:26 2089

原创 Hbase物理架构详解

Hbase体系结构HBase同样采用Master/Slaves的主从服务器结构，他由一个HMaster和多个HRegionServer构成而所有服务器都是通过Zookeeper协调并处理个服务器运行期间可能遇见的错误HMaster负责管理所有的HRegionServer，各HRegionServer负责存储许多HRegion，每一个HRegion是对HBase逻辑表的分块。如下图所示：1.HRegionHBase使用表存储数据集，当表的大小超过存储值设定时，HBase会自动将表划分为不同的区域(Re

2020-07-20 22:33:18 721

原创 Maven中打胖包和瘦包

1.把如下代码复制到porm.xml中的path，如下<build>  <finalName>myduaf</finalName> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>2.3.2</vers

2020-07-14 19:00:43 1500

原创创建Maven项目后，修改jdk为1.8

1.修改porm.xml文件中的2.修改structure中的Modules中的Modules SDK，改为1.8应用并ok3.修改settings.xml中的Java Compiler

2020-07-14 18:09:38 314

原创 hive错误总结

一、错误信息：Error: Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.FunctionTask (state=08S01,code=1)今天在导入jar包后，创建hive函数时报错，原因时没删除签名文件，一下是解决方法1.安装zipyum install -y zip2.删除签名文件zip -d jar包地址 'META-I

2020-07-13 23:03:41 1073 2

原创 Hive（一）四种排序的总结

Hive中四种排序的总结一、order by 可以指定desc降序、asc升序order by会对输入做全局排序，因此只有一个Reducer(多个Reducer无法保证全局有序)，然而只有一个Reducer，会导致当输入规模较大时，消耗较长的计算时间。不管设置多少个reduceTasks都只会执行一个reduce。二、sort bysort by不是全局排序，其在数据进入reducer前完成排序，通过combiner完成排序，因此，如果用sort by进行排序，并且设置mapred.reduce

2020-07-12 22:53:08 342

原创全网最详细的Mapreduce运行原理

Mapredcue原理详解基本的运行过程

2020-07-05 22:01:46 254

原创 Mapreduce源码分析（二）：MapTask及LineRecordReader读取文件的工作机制，源码详解

MapTask及LineRecordReader读取文件的工作机制，源码详解MapTask当ApplicationMaster创建一个MapTask的时候，MapTask会构造一个NewTrackingRecordReader对象该对象中有个属性是private final org.apache.hadoop.mapreduce.RecordReader<K,V> real;，创建对象时会调用构造方法 NewTrackingRecordReader(org.apache.hadoop.m

2020-07-05 09:23:38 466

原创 Mapreduce源码分析（一）：FileInputFormat切片机制，源码详解

FileInputFile切片机制，源码详解1.InputFormat：抽象类只有两个抽象方法public abstract List<InputSplit> getSplits(JobContext var1) throws IOException, InterruptedException;public abstract RecordReader<K, V> createRecordReader(InputSplit var1, TaskAttemptContext v

2020-07-04 16:44:51 484

原创搭建集群及Hadoop+Hive+ZoopKeeper+hbase环境搭建

一、安装hadoop见之前的Hadoop安装及配置【注】有几个需要修改的地方、拖入安装包放到software中把所有压缩包解压到/opt的目录下，除了hadoop-native这个包

2020-06-28 17:10:33 705

原创使用Docker安装Mysql数据库，及国内常用docker镜像地址

1.安装docker，输入：yum install -y docker2. 配置docker镜像地址，输入：vi /etc/docker/daemon.json，在配置文件中写入{"registry-mirrors": ["http://hub-mirror.c.163.com"]}#推荐几个国内常用的docker镜像地址https://registry.docker-cn.comhttp://hub-mirror.c.163.comhttps://docker.mirrors.ustc.ed

2020-06-28 15:43:56 4353

原创单节点下安装及配置Hadoop

一、安装Hadoop1.在VBox中创建Liniux系统（CentOS 7）（见之前的Centos7的创建教程）2.输入：vi /etc/sysconfig/network-scripts/ifcfg-enp0s3配置如下信息：BOOTPROTO=staticONBOOT=yesIPADDR=192.168.56.1013.配置完网卡后需要重启网络，输入：systemctl restart network4.把防火墙关掉/杀死，输入：systemctl disable firewalld5

2020-06-26 00:04:54 377

原创 VMware Workstation安装Conteos7

一、下载及安装VMwareVMware下载：链接：https://pan.baidu.com/s/12SkQfY0Ri_fzZIJzMFYjKA提取码：wtxu解压后安装，里面包含密钥二、安装Centos7这是我用的版本点击【创建新的虚拟机】弹出虚拟机安装向导，默认选择经典，点击下一步选择第三个，点击下一步客户机操作系统选择第二个，版本选择CentOS 7 64位，点击下一步更改虚拟机地址，更改安装目录，点击下一步选择最大磁盘大小，默认20GB，选择第二个【将虚拟机磁盘拆

2020-06-25 19:50:23 662

原创 hadoop fs常用操作命令

对hdfs操作的命令格式是Hadoop fs/命令选项。选项名称使用格式含义【常用】-ls -ls <路径> 查看指定路径的当前目录结构-lsr -lsr <路径> 递归查看指定路径的目录结构-mkdir -mkdir <hdfs 路径> 创建空白文件夹-touchz -touchz <文件路径> 创建空白文件-mv -mv <源路径> <目的路径> 移动-cp -cp <源路径> <目的路径>

2020-06-24 15:54:01 257

原创 Elasticsearch深入浅出

一、简介Elasticsearch 是一个高度可扩展的开源全文搜索和分析引擎。它允许您快速，近实时地存储，搜索和分析大量数据。它通常用作底层引擎、技术，为具有复杂搜索功能和要求的应用程序提供支持。Elasticsearch 也使用 Java 开发并使用 Lucene 作为其核心来实现所有索引和搜索的功能，但是它的目的是通过简单的 RESTful API 来隐藏 Lucene 的复杂性，从而让全文搜索变得简单。ES 是基于Lucene这个非常成熟的索引方案，另加上一些分布式的实现：集群，分片，复制等。

2020-06-23 23:26:08 275

空空如也

空空如也