自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(44)
  • 收藏
  • 关注

原创 Scala单例模式(懒汉与饿汉)

scala单例模式

2022-06-20 15:35:16 218 1

原创 SQOOP将数据上传至HDFS

sqoop import \-Dmapreduce.job.queuename=root.mda \--connect 'jdbc:jtds:sqlserver://SGH1PDWBIDBV06.cn.yumchina.com:55650/SQL2008_DWBI06;domain=YumChina;databasename=DWBI2_Delivery_PHHS;sendStringParametersAsUnicode=false' \--username serv-bda-prd \--pas

2021-07-06 14:11:00 301

原创 SQOOP导入数据至Hive

1、数据源表同步到hive中sqoop import \--connect 'jdbc:postgresql://172.21.232.128:1921/coupon?useUnicode=true&characterEncoding=utf8' \--username coupondw \--password 'dw!123456' \--table t_prime_offer_info_0 \--hive-import \--hive-database tmp \--hive-t

2021-06-25 17:23:14 3744

原创 shell脚本删除hive外部表用户指定多分区数据(删除hdfs上元数据)

1、首先我们创建一个多分区的外部表:tmp.clear_external_mulpartitiondata_test2,其中分区字段为year,month,day;并向该表中插入数据。-- 创建源数据表tmp.cleardata_test2,并手动插入数据drop table if exists tmp.cleardata_test2;create table if not exists tmp.cleardata_test2( stuid string, stuname string,

2021-04-02 22:52:50 1025

原创 使用shell脚本删除hive外部表hdfs元数据

1、原hdfs上文件目录2、编写shell脚本delete_external_partitiondata.sh#! /bin/bash#要求传入的数据格式为yyyyMMdd的两个开始和结束参数,如20210302 20210303tableName=$1partitionName=$2start=$3end=$4#将输入的日期转为的时间戳格式startDate=`date -d "${start}" +%s`endDate=`date -d "${end}" +%s`#计算两

2021-03-28 08:46:07 619 1

原创 Spark Streaming读取kafka中的数据

1、创建kafka的topic并且插入数据创建topic[root@henry ~]# kafka-topics.sh --zookeeper 192.168.153.200:2181 --create --topic mmm --replication-factor 1 --partitions 1插入生产数据[root@henry ~]# kafka-console-producer.sh --broker-list 192.168.153.200:9092 --topic mmm&

2020-12-14 19:04:21 1813

原创 Spark Streaming计算wordCount

1、计算原理Sparkstreaming处理数据可以分为实时流或者流Sparkstreaming从flume或者kafka中拉取数据,而Sparkstreaming中会创建多个窗口,以RDD的形式存放这些数据,然后开始处理这些数据Sparkstreaming含有一个特有的算子updateStateByKey,就是在state中累计之前窗口中的数据。如上图所示,窗口1先进行数据的统计,然后将数据放入到state中,然后,进行窗口2的数据统计,然后将state中的数据进行累加统计,依次类推,一直将

2020-12-11 20:55:36 325

原创 使用python生成日志信息并上传至hdfs上

一、python生成日志首先创建一个python工程,生成日志//生成1-999数字,当作日志信息//保存在e:/kafkalog/abc.log目录下if __name__ == '__main__': with open("e:/kafkalog/abc.log","w") as f: for r in range(1,1000): f.write("test"+str(r)+"\n")python该文件放入到Linux,使用pyth

2020-12-10 23:56:14 291

原创 文件通过flume导入到kafka

一、数据准备现在本地有一个users.csv文件,需要将其数据通过flume导入到kafka中 注意:该表格是有表头的,数据通过flume导入到kafka中是需要通过拦截器过滤掉表头。二、数据导入首先在Linux下面创建一个文件flume1.properties,编辑该文件//a1:agent//flume三大组件 source、channel、sinka1.sources=f1a1.channels=c1a1.sinks=k1//文件监听器a1.sources.f

2020-12-10 19:23:45 1943 1

原创 KafkaAPI生产和消费数据

一、生产数据首先创建一个Maven的quickstart工程编辑pow.xml配置,导入依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/

2020-12-09 19:08:35 396

原创 MySql数据库数据接口暴露

2020-12-09 00:01:50 737 1

原创 数仓学习——拉链表原理

一、拉链表原理1、引入在数据仓库的数据模型设计过程中,经常会遇到这样的需求:(1)数据量比较大。(2)表中的部分字段会被update,如用户的地址,产品的描述信息,订单的状态等等。(3)需要查看某一个时间点或者时间段的历史快照信息,比如,查看某一个订单在历史某一个时间点的状态。(4)查看某一个用户在过去某一段时间内,更新过几次等等。(5)变化的比例和频率不是很大,比如,总共有1000万的会员,每天新增和发生变化的有10万左右。(6)如果对这边表每天都保留一份全量,那么每次全量中会保存很多不

2020-11-13 22:26:08 2355

原创 机器学习——K均值算法(K-means)

一、K均值算法1、引入如上图a所示,所有的绿色点为数据,从人的主观肉眼上明显看出,该数据分为两类,上面为一类,下面为一类。但是计算机并不知道,那计算机是怎么分类的呢?图b所示,计算机随机生成两个质心点(一般情况下计算机会从已有的原数据中选择质心点,而不是随机生成新的质心点),一个红色一个蓝色。图c所示,计算机会根据每个点的坐标,去计算这些数据距离哪一个质心点距离最近,就把它分到哪一类中,c图所示,将数据一部分分为蓝色类,一部分分为红色类。接下来会更新质心点(质心点更新:将之前分好类的数据按照类

2020-11-08 17:58:23 2841 1

原创 机器学习——决策树

一、决策树决策树时一种简单高效并且具有强解释性的模型,广泛应用于数据分析领域。其本质是一颗自上而下的由多个判断节点组成的树。图形分析:如上图所示,在模拟一个相亲的情况,女方首先会根据年龄判断自己是否会去见面,那年龄就是特征值,就是自变量,见或者不见就是结果,也就是因变量。年龄判断后再根据长相、收入、以及是否为公务员判断自己是否想见面。这就是一个决策数模型,当然每个人的第一个选择的根据当然也不会相同,有的人先根据年龄,有的人先根据收入或者长相,也导致了决策树模型的不同。二、 决策树案例

2020-11-07 15:00:30 654

原创 机器学习——线性回归

一、回归算法回归算法是一种有监督学习算法,用来建立自变量X和观测变量Y之间的映射关系,如果观测变量是离散的,则称其为分类Classification;如果观测变量是连续的,则称其为回归Regression。回归算法的目的是寻找假设函数hypothesis来最好的拟合给定的数据集。常用的回归算法有:线性回归(Linear Regression)、逻辑回归(Logistic Regression)、多项式回归(Polynomial Regression)、岭回归(Ridge Regression)、LAS

2020-11-07 09:03:41 352

原创 机器学习——KNN近邻算法(鸢尾花数据集)

一、鸢尾花数据集

2020-11-06 21:57:01 1546

原创 Python学习——Matplotlib

一、Matplotlib介绍python中的matplotlib是一种用于创建图表的桌面绘图包(主要是2D方面);使用python对matplotlib库操作使得对图形的显现极为方便。二、代码案例import matplotlibimport matplotlib.pyplot as pltif __name__=='__main__': #设置中文黑体 matplotlib.rcParams['font.sans-serif']=['SimHei'] #设置x、y

2020-11-05 00:24:55 171

原创 机器学习——KNN近邻算法

一、KNN算法概述KNN可以说是最简单的分类算法之一,同时,它也是最常用的分类算法之一,注意KNN算法是有监督学习中的分类算法,它看起来和另一个机器学习算法Kmeans有点像(Kmeans是无监督学习算法),但却是有本质区别的。二、KNN算法介绍KNN的全称是K Nearest Neighbors,意思是K个最近的邻居,从这个名字我们就能看出一些KNN算法的蛛丝马迹了。K个最近邻居,毫无疑问,K的取值肯定是至关重要的。那么最近的邻居又是怎么回事呢?其实啊,KNN的原理就是当预测一个新的值x的时候

2020-11-04 23:50:53 477 1

原创 Scala数组函数

Scala数组函数1、++说明:合并集合,并且返回一个新数组注:因为数组中包含数字也包含字符串,所以会用Any顶级类型接收,如果数组中有重复内容,不会去重2、++:说明:合并集合,冒号右边的类型决定返回结果的类型3、+: / :+向数组前或者后添加一个元素,并且返回新的对象4、/: :\说明:左子树或者右子树,将某个数放置左边,每次和数组中的每个值进行操作,所得到的数值放置左边,然后在和下一个数组中的值操作。右子树一样。...

2020-09-18 23:32:16 3735

原创 虚拟机Zeppelin安装

Zeppelin安装以及运行1、将zeppelin安装包解压到你想要安装的目录下面。并且重新命名。2、进入zeppelin的conf目录下面,复制该目录下面的zeppelin-site.xml.template 文件,复制为zeppelin-site.xml文件,然后编辑该文件。3、复制conf目录下面的zeppelin-env.sh.template文件,复制为zeppelin-env.sh文件,然后编辑该文件。4、启动zeppelin。进入zeppelin的bin目录,启动zeppel

2020-08-31 22:05:39 235

原创 虚拟机Hive安装

Hive安装以及运行1、将下载好的hive安装包解压到你想要安装的虚拟的某个路径下面,然后再重命名以下。tar -zxvf hive-1.1.0-cdh5.14.2.tar.gz -C /opt/bigdata/hadoop/mv hive-1.1.0-cdh5.14.2.tar.gz/ hive1102、需要我们在安装好的hive目录的conf目录下面创建一个hive-site.xml文件,编写该配置文件。3、将mysql-java驱动拷贝到安装好的hive的lib目录下面。4、配置

2020-08-28 18:48:00 4798

原创 虚拟机Hadoop高可用集群安装

Hadoop-ha集群安装1、首先在之前安装好的hadoop260目录下面创建一个data目录,然后在data目录下面再创建3个目录,分别为journalnode、pids、tmp。集群的所有虚拟机都要这样创建。2、然后我们需要配置hadoop里面的配置,首先配置environment。进入hadoop260目录下面的etc/hadoop目录下面,编辑里面的hadoop-env.sh文件。3、其次编辑core-site.xml文件。4、编辑hdfs-site.xml文件。5、编辑yar

2020-08-25 22:24:05 549

原创 虚拟机Zookeeper集群配置

Zookeeper集群配置1、将Zookeeper压缩包解压到自己想要的安装的路径下。然后为了方便后续配置信息,可以重命名为zookeeper345文件。因为我下载的是3.4.5的版本。2、然后我们需要在zookeeper345的统计目录下创建一个目录为zookeeper,用于创建zookeeper的软连接。就好比在windows系统下安装一个软件,创建一个快件方式一样。ln -s zookeeper345/ zookeeper/3、之后我们在刚刚创建的zookeeper目录下面再创建一个zk

2020-08-21 23:10:34 985

原创 虚拟机Hadoop集群配置安装及运行

Hadoop集群配置及运行一、集群配置二、运行一、集群配置1、修改安装好的hadoop260文件的用户权限,修改为root用户chown -R root:root hadoop260/2、设置JDK,进入安装好的hadoop260文件下的etc/hadoop/目录下,编辑hadoop-env.sh文件。二、运行...

2020-08-17 22:52:32 1759

原创 虚拟机Hadoop安装

虚拟机Hadoop单机安装1、将所需要的hadoop安装包导入root用户的/etc/install/hadoop目录下,其中install和hadoop为自己新建的目录2、将hadoop-2.6.0-cdh5.14.2.tar.gz解压到/etc/bigdata/hadoop目录下,并且重命名为hadoop260。bigdata和hadoop为自己新建目录。、3、修改重命名文件的用户为root4、在安装好的hadoop的etc/hadoop/的目录下,编辑hadoop-env.sh文件,

2020-08-16 22:41:06 2559

原创 ElasticSearch简单介绍

ES简单介绍一、相关概念1、ElasticSearch2、集群(Cluster)3、节点(Node)二、端口关系三、NOSql非关系性数据库四、元素的语法一、相关概念1、ElasticSearch一个开源的高扩展的分布式全文搜索引擎,实时的存储、检索。扩展性较好的ES服务器。2、集群(Cluster)由一个或者多个节点构成,共同持有整个数据,并一起提供索引和搜索功能。一个集群有一个唯一的名字标识。3、节点(Node)一个节点是集群中的一个服务器。存储数据,参与集群的索引和搜索功能。

2020-08-15 22:49:53 747

原创 ElasticSearch分词器插件安装

ES分词器插件安装1、在安装好的ElacticSearch的plugins目录下面新建一个ik目录,用于存放分词器安装包解压后的文件。分词器版本为:elasticsearch-analysis-ik-6.2.2.zip。2、使用解压命令,将压缩包解压到ik目录下,此时会发现在ik目录下会生成一层目录为elasticsearch,在该目录下存放着解压后的所有文件。需要将这些文件移动到ik目录下面,然后再删除elasticsearch目录。最终效果如下。3、然后,为了让集群所有的虚拟机安装分词器,我们

2020-08-15 17:30:14 345

原创 ElasticSearcch集群一键启动

ElasticSearcch集群启动1、elasticsearch集群的启动不能在root用户下,所以使用su命名切换到自己建立的普通用户下。2、在根目录下面建立两个shell脚本,用来编写集群启动的代码。3、新建的文件是用户是没有执行权的,所以需要我们分别给两个文件授权。chmod u+x esstart.sh remote.sh4、编辑esstart.sh脚本信息如下图所示vi esstart.sh该脚本用来启动elasticsearch集群5、编辑remote.sh脚本信

2020-08-15 00:35:38 830

原创 虚拟机es-head-master以及nodejs安装

一、ES-head-master安装1、获取head-master的安装包,将其导入到虚拟机的/opt/install/elk/目录下,opt为系统自带目录,install和elk目录需要自己创建,用于存放安装包。2、将其安装包,解压到/opt/bigdata/elk目录下,同样bigdata和elk目录需要自己创建。解压完成后重命名为eshm,完成安装.先解压到当前目录下/opt/install/elkunzip elasticsearch-head-master.zip再移动至/opt/b

2020-08-12 23:49:32 1034

原创 ElasticSearch运行配置

ElasticSearch运行配置一、配置一、配置1、首先将elasticsearch压缩包解压,并完成重命令,为es6222、

2020-08-12 22:39:33 848

原创 ElasticSearch日志收集以及HeadMaster日志展示

一、ElasticSearch日志收集1、首先将一个Isdemo.jar包导入虚拟机的root根目录下,该jar包为编写数据展示的表结构以及日志代码。2、在root根目录下面建一个mylog.log文件,用于存放执行Isdemo.jar包后产生的日志数据。该文件已经在jar包中指定。3、其次在root根目录下创建一个logstash.log文件,用于写配置信息。4、网上搜索logstash的安装包,要求与elasticsearch版本相同,将其放置/opt/install/elk目录下,然后再

2020-08-12 17:38:23 1019

原创 Shell常用命令2

Shell常用命令2一、流重定向二、Shell运行1、前台运行2、后台运行(&)三、自定义函数1、声明函数2、调用函数3、跳转四、文件中插入内容一、流重定向正确信息覆盖到文件filecommand > file正确信息追加到文件filecommand >> file错误信息覆盖到文件filecommand 2 > file错误信息追加到文件filecommand 2 >> file正确与错误信息覆盖到文件filecommand >fi

2020-08-12 00:05:59 536

原创 Linux集群免密登录以及常用命令2

一、设置虚拟主机与从机别名首先为所有虚拟机设置别名:hostnamectl set-hostname HOSTNAME查看别名:hostname二、虚拟机之间免密登录虚拟机之间如果需要相互免密登录,每个虚拟机要将需要进行免密登录的虚拟机相关联。将虚拟机的IP地址与设置好的别名相关联。进入主虚拟机的根目录:cd /root虚拟机之间相互免密登录,每个虚拟机都需要生成一把密钥,然后将这把密钥授权,最后分别远程拷贝给其他虚拟机,这样,每个虚拟机就可以访问其他虚拟机,而不需要输入密码,免密

2020-08-09 23:41:57 669

原创 Shell常用命令

Shell常用命令一、创建文件设置权限二、变量1、系统变量2、自定义变量1) 数据类型2) 声明变量3) 取消变量4) 变量的作用域5) 参数输入三、注释四、控制台输入五、 运算符1、算数运算符和算数表达式![在这里插入图片描述](https://img-blog.csdnimg.cn/20200809154930675.PNG?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNz

2020-08-09 16:02:36 1274

原创 JAVA框架——Mybatis

JAVA框架——Mybatis一、JAVA框架1、什么是框架2、主流框架(1)Spring框架(2)Spring MVC框架(3)Mybatis框架二、Mybatis框架1、数据持久化2、框架简介3、优缺点4、应用范围5、Mybatis框架一、JAVA框架1、什么是框架框架:(Framework)是一个提供了可重用的公共结构的半成品。它为我们构建新的应用程序提供了极大的便利,不但提供了可以拿来就用的工具,更重要的是,还提供了可以重用的设计。骨架:对用应用程序来说,“框架”就是应用程序的骨架,开发者

2020-08-09 00:33:33 984

原创 Linux中安装Mysql

Linux中安装Mysql一、Linux中Mysql 的安装1、查询并删除旧版本2、查询wget版本,并且安装3、设置rpm镜像源4、rpm安装:5、安装完mysql后第一次启动6、修改本地登录密码及设置远程登录密码7、登录mysql8、mysql中解决中文输入一、Linux中Mysql 的安装1、查询并删除旧版本当我们安装好linux操作系统后,该系统自带一个mariadb数据库,我们不需要该数据库,需要将其找出来,然后删除该数据库。查找该版本数据库:rpm -qa|grep mariadb删

2020-08-07 21:44:03 599

原创 Linux常用操作命令以及JDK、TOMCAT

Linux一、常用命令二、JDK与TOMCAT安装三、MYSQL安装一、常用命令1、清屏:clear2、显示当前目录:pwd3、切换目录:cd name/…/4、查看当前目录详情:ls -la5、创建目录: mkdir6、递归删除文件或者目录:rm -rf filename7、普通删除文件或者目录:rm -ra filename8、确认删除文件或者目录:rm -ri filename9、复制文件或者目录:cp10、移动或者重命名文件或者目录:mv11、查看文件或者目录:cat

2020-08-07 20:54:22 610

原创 VMware安装

VMware安装一级目录二级目录三级目录一级目录二级目录三级目录

2020-08-04 00:37:24 1371

原创 MYSQL数据库基础01

MYSQL数据库一、数据库(database)1、概念2、数据类型(1)字符(2)数值(3)布尔值(4)日期3、库的建立4、数据完整性以及实现方法(1)数据完整性(2)完整性实现方法5、表的建立及操作6、结构操作与数据操作(1)结构操作(2)数据操作7、查询操作(1)简单查询(2)复杂查询一、数据库(database)1、概念DB数据库(database):存储数据的“仓库”。它保存了一系列有组织的数据。DBMS数据库管理系统(Database Management System)。数据库是通

2020-07-07 00:24:14 492

原创 JAVA高级特性——流

JAVA高级特性——流一、概念二、分类三、文件流一、概念二、分类三、文件流

2020-06-21 16:14:27 448

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除