自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(84)
  • 收藏
  • 关注

原创 oracle视图、函数、循环、case when

文章目录视图视图视图实际上是一张或者多张表上的预定义查询,这些表称为基表。视图的优点:1、可以限制用户只能通过视图检索数据。这样可以对最终用户

2021-07-12 14:58:53 559

原创 oracle内置函数

文章目录字符函数数学函数字符函数//向左补齐select name,lpad(name,6,'0') from kgc;//向右补齐select name,rpad(name,10,'0') from kgc;//大小写转换select lower('JAVA') from dual;select upper('java') from dual;//首字母大写select initcap('name') from dual;//字符长度select name,len

2021-07-08 09:44:07 152

原创 oracle操作命令

文章目录创建用户解锁用户创建、删除表空间创建用户//启动监听lsnrctl start//切换oracle用户su oracle//以操作系统权限认证的oracle sys管理员登陆sqlplus / as sysdba//启动oracle数据库startup//system用户登录connect system@prod//创建用户create user gree identified by gree;//给用户赋权grant connect,resource,dba to g

2021-07-07 14:30:21 179

原创 flink窗口函数

文章目录applyapplypublic class WindowApply { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); env.setParallelism(2); env.setStreamTime

2021-07-01 15:19:36 144

原创 flink窗口函数

文章目录概述flink中的时间种类有哪些window类型window api概述streaming流式计算是一种被设计用于处理无限数据集的数据处理引擎,而无限数据集是指一种不断增长的本质上无限的数据集,而window是一种切割无限数据为有限块进行处理的手段。​ Window是无限数据流处理的核心,Window将一个无限的stream拆分成有限大小的”buckets”桶,我们可以在这些桶上做计算操作。flink中的时间种类有哪些Flink中的时间与现实世界中的时间是不一致的,在flink中被划分为事

2021-07-01 14:28:52 172

原创 flink应用二

文章目录transfromtransform1transform2transform3transfromtransform1public class Transform1 { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

2021-06-29 17:16:09 61

原创 flink应用一

文章目录flink基础理论导入依赖wordcountSocketTextStream 可以从Socket中读取字符串数据从文件中读取数据sourcecollectionfilekafka自定义数据源sinkkafkamysqlredisflink基础理论https://blog.csdn.net/oTengYue/article/details/102689538?ops_request_misc=%257B%2522request%255Fid%2522%253A%252216249468091678

2021-06-29 16:34:03 112

原创 redis数据类型、redis命令

文章目录redis数据类型redis数据类型Redis支持五种数据类型:string(字符串),hash(哈希),list(列表),set(集合)及zset(sorted set:有序集合)。1、String字符串string是redis最基本的类型,一个key对应一个value。string类型是二进制安全的。意思是redis的string可以包含任何数据。比如jpg图片或者序列化的对象 。string类型是Redis最基本的数据类型,一个键最大能存储512MB。2、Hash(哈希)Red

2021-06-25 14:43:09 73

原创 redis概述、安装、配置文件

文章目录概述优势Redis与其他key-value存储有什么不同?linux下安装启动概述Redis 是完全开源免费的,遵守BSD协议,是一个高性能的key-value数据库。Redis 与其他 key - value 缓存产品有以下三个特点:Redis支持数据的持久化,可以将内存中的数据保持在磁盘中,重启的时候可以再次加载进行使用。Redis不仅仅支持简单的key-value类型的数据,同时还提供list,set,zset,hash等数据结构的存储。Redis支持数据的备份,即master-s

2021-06-25 14:10:11 116 1

原创 50070页面报错

文章目录hbase shell后,list报错50070页面hbase shell后,list报错可能原因:1、zookeeper2、检查hbase-env.sh hbase-site.xml3、检查hdfs配置文件 core-site.xml和hbase-site.xml上述原因排查后,不能解决list报错问题50070页面50070页面报错:There are 2 missing blocks. The following files may be corrupted1、查看哪一个文

2021-06-11 15:20:31 301 1

原创 mongodb创建用户、认证连接、java连接

文章目录rolemongodb设置账号和密码认证连接java连接一般情况下,mongoDB 数据库都要建立认证连接,这就需要用户对数据库创建管理员和用户认证,而对于mongoDB 而言,在创建管理员和用户时,分配的roles 是决定用户操作数据库权限的关键。role数据库用户角色(Database User Roles)read : 授权User只读数据的权限,允许用户读取指定的数据库readWrite 授权User读/写数据的权限,允许用户读/写指定的数据库数据库管理角色(Database

2021-06-08 06:34:26 805 1

原创 将hbase、mongodb中的内容写到hive中

文章目录将hbase中的内容写入到hive中查看硬盘使用情况将mongodb中的内容写到hive中将hbase中的内容写入到hive中1、启动hive时遇到的问题$ hiveLogging initialized using configuration in jar:file:/usr/local/hive/lib/hive-common-1.2.1.jar!/hive-log4j.propertiesException in thread "main" java.lang.RuntimeExce

2021-06-07 19:56:20 254 1

原创 mongodb常用命令

文章目录mongodb与mysqlmongodb常用命令mongodb与mysqlmysql mongodbdatabase databasetable collectionrow document (json=>bson>column fieldjoin 不支持primar key primary key (_id)mongodb常用命令//创建

2021-06-07 06:35:13 66

原创 mongodb

文章目录Linux下安装mongodb启动可视化界面windows下安装mongodbLinux下安装mongodb1、解压并改名tar -zxf mongodb-linux-x86_64-rhel70-4.0.24.tgzmv mongodb-linux-x86_64-rhel70-4.0.24 mongodb2、在mongodb根目录下创建data、log文件夹//创建数据库文件路径mkdir -p ./data/db//创建日志路径mkdir ./log3、在mongodb根目

2021-06-03 15:03:46 75

原创 观察者、代理模式

文章目录观察者模式代理模式观察者模式package designer.one;import java.util.ArrayList;public abstract class Observer { public ArrayList<Player> players = new ArrayList<>(); public void add(Player player){ players.add(player); } public

2021-06-03 07:19:49 54

原创 接口思想将kafka topic写入到hbase中

文章目录直接使用main方法使用接口将kafka传过来的数据作为参数写一个接口,返回put对象集合抽象写的动作Workermain直接使用main方法package kafkatohb;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HConstants;import org.apache.ha

2021-06-03 06:56:23 271

原创 单线程、多线程完成wordcount统计

文章目录单线程完成wordcount统计多线程完成wordcount单线程完成wordcount统计package wc;import java.io.BufferedReader;import java.io.FileNotFoundException;import java.io.FileReader;import java.io.IOException;import java.util.Iterator;import java.util.Map;import java.util.S

2021-06-01 05:49:57 161

原创 mysql线程池

文章目录mysql依赖配置文件 db.properties加载配置文件建立Connection对象mysql依赖 <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.38</version> </dependency>

2021-05-30 23:57:29 70

原创 kafkastream(二)

文章目录直接将kafka topic1中的数据传递给topic2样例1样例2kafka stream 窗口Hopping Time WindowTumbling time windowSession windowSliding Window直接将kafka topic1中的数据传递给topic2样例1package kafka;import org.apache.kafka.clients.consumer.ConsumerConfig;import org.apache.kafka.commo

2021-05-30 23:34:35 193

原创 Spark GraphX

文章目录为什么需要图计算图(Graph)的基本概念度Spark GraphX 简介为什么需要图计算许多大数据以大规模图或网络的形式呈现许多非图结构的大数据,常会被转换为图模型进行分析图数据结构很好地表达了数据之间的关联性图(Graph)的基本概念图是由顶点集合(vertex)及顶点间的关系集合(边edge)组成的一种网状数据结构通常表示为二元组:Gragh=(V,E)可以对事物之间的关系建模应用场景在地图应用中寻找最短路径社交网络关系网页间超链接关系度度:一个顶点所有边的数

2021-05-27 17:13:58 94

原创 sparkGraphx-航班飞行网图分析

文章目录

2021-05-27 17:12:50 137

原创 spark日志分析

文章目录清洗配置文件留存率活跃用户清洗package etlimport java.util.Propertiesimport org.apache.commons.lang.StringUtilsimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql._import org.apache.spark.sql.types.{S

2021-05-27 17:12:29 345

原创 kafka stream

文章目录实时流输出数字相加wordCount实时流输出1、创建工程,导入kafka kafka stream依赖包 <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.11</artifactId> <version>2.0.0</version> </dependency&gt

2021-05-27 15:27:45 224

原创 kafka安装、常用命令、集群、producer、consumer

文章目录kafka安装kafka常用命令kafka集群kafka安装1、解压并改名tar -zxf kafka_2.11-2.0.0.tgzmv kafka_2.11-2.0.0 kafka2112、修改配置文件vi /root/software/kafka211/config#broker的全局唯一编号,不能重复broker.id=0#kafka运行日志存放的路径log.dirs=/opt/bigdata/kafka211/kafka_logs#broker需要使用zookeepe

2021-05-26 14:23:17 170

原创 flume(二)

文章目录文件写到kafka中不同的channel进入不同的sinkinterceptor拦截器文件写到kafka中userfriends.sources=userfriendsSourceuserfriends.channels=userfriendsChanneluserfriends.sinks=userfriendsSinkuserfriends.sources.userfriendsSource.type=spooldiruserfriends.sources.userfriendsS

2021-05-25 15:01:24 52

原创 flume

文章目录flume安装flume安装1、解压并改名tar -zxf flume-ng-1.6.0-cdh5.14.0.tar.gzmv apache-flume-1.6.0-cdh5.14.0-bin/ flume2、修改文件cd confcp flume-env.sh.template flume-env.shvi flume-env.sh//jdkexport JAVA_HOME=/usr/java/jdk1.8.0_131//export JAVA_OPTS="-Xms102

2021-05-25 06:29:24 55

原创 flume基本概念

文章目录flume特点flume一些概念flume体系结构sourcechannelsinkflume特点flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。flume的数据流由事件(Event)贯穿始终。事件是Flume的基本数据单位,它携带日志数据(字节数组形式)并且携带有头信息,这些Event由Agent外部的Source

2021-05-25 06:28:56 793

原创 RDD常用算子

文章目录RDD转换算子map++aggregatebarriercacheRDD转换算子map将处理的数据逐条进行映射转换,这里的转换可以是类型的转换,也可以是值的转换++val rdd1 = sc.parallelize(1 to 10)val rdd2 = sc.parallelize(11 to 20)val a = rdd1 ++ rdd2println(a.collect.mkString(","))//1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16

2021-05-17 06:19:12 716

原创 自定义函数UDF、UDAF、UDTF

文章目录UDFUDAFUDTFUDF一对一统计兴趣爱好的个数package functionimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql.{DataFrame, SparkSession}case class Hobbies(name:String,hobbies:String)object UDFDemo { d

2021-05-12 19:33:48 363

原创 Spark SQL支持的外部数据源、内置函数

文章目录Spark SQL支持的外部数据源hivemysqljsonSpark SQL支持的外部数据源hive//用spark读取hive数据 val spark: SparkSession = SparkSession.builder().appName("demo0") .master("local[*]") .config("hive.metastore.uris", "thrift://192.168.232.211:9083") .enableHi

2021-05-12 19:24:02 154

原创 SparkSQL架构、运行原理、Dataset、dataframe

文章目录Spark SQL架构Spark SQL运行原理DatasetDataset创建Spark SQL架构Spark SQL是Spark的核心组件之一(2014.4 Spark1.0)能够直接访问现存的Hive数据提供JDBC/ODBC接口供第三方工具借助Spark进行数据处理提供了更高层级的接口方便地处理数据支持多种操作方式:SQL、API编程支持多种外部数据源:Parquet、JSON、RDBMS等Spark SQL运行原理Catalyst优化器是Spark SQL的核心Cata

2021-05-12 08:26:31 160

原创 装载CSV数据源、装载json数据源、spark读取jar包执行scala操作

文章目录装载CSV数据源sparkcontext操作sparksession装载json数据源sparkcontext操作sparksession操作spark读取jar包执行scala操作配置文件:scala代码:打包:删除jar包中的安全文件读取包执行scala操作装载CSV数据源sparkcontext操作val conf = new SparkConf().setMaster("local[*]").setAppName("csvDemo") val sc = SparkContext

2021-05-11 01:56:28 129 2

原创 spark-shell、spark架构设计、使用idea初始化spark运行环境、Spark RDD

文章目录spark-shellspark架构设计使用idea初始化spark运行环境Spark RDDspark-shellspark自带的交互式工具val rdd1 = sc.parallelize(1 to 10)rdd1.collect//res0: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)rdd1.partitions.size//res1: Int = 1val rdd2 = sc.makeRDD(5 to 15)rdd2

2021-05-06 19:50:57 217 1

原创 scala函数大全(二)

文章目录applycanEqualcharAtclonecollectcollectFirstcombinationscontainscontainsSlice(xs)copyToArray()copyToArray(xs,start)copyToArray(xs,start,len)copyToBuffercorrespondscountdiffdistinctdropdropRightdropWhileendsWithexistsfilterfindflatMapflattenfoldfoldLeftf

2021-04-28 20:09:48 499

原创 hive分区、分桶、视图、侧视图

文章目录hive分区创建分区表(静态分区)添加和删除分区动态分区hive分桶抽样视图视图概述应用场景视图的操作侧视图hive分区在大数据中,最常用的一种思想是分治,分区表实际就是对应hdfs文件系统上的独立的文件夹,该文件夹下是该分区所有数据文件hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过where子句中的表达式选择查询所需要的指定的分区,这样的查询效率会提高很多。创建分区表(静态分区)通过PARTITIONED BY定义分区create table d

2021-04-28 15:59:49 495

原创 数据仓库、数据仓库和数据库的区别、数据仓库分层

数据仓库的概念数据仓库 (data warehouse )简称DW、DWH,是一个很大的数据存储集合,出于企业的分析性报告和决策支持的目的而创建。它为企业提供一定的BI(商业智能)能力,指导业务流程改进、监视时间、成本、质量和控制。数据仓库的输入方是各种各样的数据源,最终的输出用于企业的数据分析、数据挖掘、数据报表等方向。数据库和数据仓库的区别数据库数据库是面向业务、面向交易的处理系统,是针对具体业务在数据库联机的日常操作,通常对记录进行增删改查。用户比较关心操作的相应时间、数据的安全性、并发支

2021-04-28 15:59:03 714

原创 协变、逆变、jdbc连接数据库、使用隐式类、函数大全

文章目录协变逆变使用jdbc连接数据库使用隐式类Scala数组集合函数大全协变逆变class Animal{ def eat():Unit ={ println("动物吃东西") }}class Cat extends Animal{ override def eat():Unit ={ println("猫科动物吃肉") }}class Tiger extends Cat{ override def eat():Unit={ println("老虎吃

2021-04-27 23:47:55 91

原创 scala安装、与java、jvm关系、源文件解析、伴生对象扩展说明

文章目录scala安装scala、java、jvm关系图scala语言特点scala源文件和运行反编译工具scala在idea中编写编写代码语法说明伴生对象的扩展说明scala安装1、安装scala-2.11.8.msi 设置安装路径为D:\ProgramFile\scala2、环境变量SCALA_HOMED:\ProgramFile\scalaPath%SCALA_HOME%\bin3、验证scala、java、jvm关系图scala语言特点scala是一门以java虚拟机(jv

2021-04-27 18:20:32 177

原创 偏函数、部分函数、模式匹配、伴生类伴生对象、抽象类

文章目录偏函数部分函数模式匹配伴生类 伴生对象抽象类偏函数在Scala中,偏函数是具有类型PartialFunction[-T,+V]的一种函数。T是其接受的函数类型,V是其返回的结果类型例子:传入String,返回Intdef funPartition:PartialFunction[String,Int]={ case "hello"=>1 case "word"=>0 case _=>3}println(funPartition("kb11")) //3例

2021-04-27 08:23:59 185

原创 scala函数、匿名函数、柯里化、隐式函数、隐式参数、隐式类

文章目录Scala函数Scala函数语法def main(args: Array[String]): Unit = {}//def 声明函数 main函数名称 args 形参 //Array[String] 类型 Unit 返回值需求:两数的最小值def minValue(a:Int,b:Int): Int ={ if(a > b) b else a}val result = minValue(11,13)println(result)def info(name:Str

2021-04-26 08:24:42 203

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除