herry_liang-CSDN博客

sqoop import \-Dmapreduce.job.queuename=root.mda \--connect 'jdbc:jtds:sqlserver://SGH1PDWBIDBV06.cn.yumchina.com:55650/SQL2008_DWBI06;domain=YumChina;databasename=DWBI2_Delivery_PHHS;sendStringParametersAsUnicode=false' \--username serv-bda-prd \--pas

2021-07-06 14:11:00 311

原创 SQOOP导入数据至Hive

1、数据源表同步到hive中sqoop import \--connect 'jdbc:postgresql://172.21.232.128:1921/coupon?useUnicode=true&characterEncoding=utf8' \--username coupondw \--password 'dw!123456' \--table t_prime_offer_info_0 \--hive-import \--hive-database tmp \--hive-t

2021-06-25 17:23:14 3761

原创 shell脚本删除hive外部表用户指定多分区数据(删除hdfs上元数据)

1、首先我们创建一个多分区的外部表:tmp.clear_external_mulpartitiondata_test2,其中分区字段为year,month,day;并向该表中插入数据。-- 创建源数据表tmp.cleardata_test2，并手动插入数据drop table if exists tmp.cleardata_test2;create table if not exists tmp.cleardata_test2( stuid string, stuname string,

2021-04-02 22:52:50 1064

原创使用shell脚本删除hive外部表hdfs元数据

1、原hdfs上文件目录2、编写shell脚本delete_external_partitiondata.sh#! /bin/bash#要求传入的数据格式为yyyyMMdd的两个开始和结束参数，如20210302 20210303tableName=$1partitionName=$2start=$3end=$4#将输入的日期转为的时间戳格式startDate=`date -d "${start}" +%s`endDate=`date -d "${end}" +%s`#计算两

2021-03-28 08:46:07 632 1

原创 Spark Streaming读取kafka中的数据

1、创建kafka的topic并且插入数据创建topic[root@henry ~]# kafka-topics.sh --zookeeper 192.168.153.200:2181 --create --topic mmm --replication-factor 1 --partitions 1插入生产数据[root@henry ~]# kafka-console-producer.sh --broker-list 192.168.153.200:9092 --topic mmm&

2020-12-14 19:04:21 1840

原创 Spark Streaming计算wordCount

1、计算原理Sparkstreaming处理数据可以分为实时流或者流Sparkstreaming从flume或者kafka中拉取数据，而Sparkstreaming中会创建多个窗口，以RDD的形式存放这些数据，然后开始处理这些数据Sparkstreaming含有一个特有的算子updateStateByKey,就是在state中累计之前窗口中的数据。如上图所示，窗口1先进行数据的统计，然后将数据放入到state中，然后，进行窗口2的数据统计，然后将state中的数据进行累加统计，依次类推，一直将

2020-12-11 20:55:36 341

原创使用python生成日志信息并上传至hdfs上

一、python生成日志首先创建一个python工程,生成日志//生成1-999数字，当作日志信息//保存在e:/kafkalog/abc.log目录下if __name__ == '__main__': with open("e:/kafkalog/abc.log","w") as f: for r in range(1,1000): f.write("test"+str(r)+"\n")python该文件放入到Linux,使用pyth

2020-12-10 23:56:14 307

原创文件通过flume导入到kafka

一、数据准备现在本地有一个users.csv文件，需要将其数据通过flume导入到kafka中注意：该表格是有表头的，数据通过flume导入到kafka中是需要通过拦截器过滤掉表头。二、数据导入首先在Linux下面创建一个文件flume1.properties,编辑该文件//a1:agent//flume三大组件 source、channel、sinka1.sources=f1a1.channels=c1a1.sinks=k1//文件监听器a1.sources.f

2020-12-10 19:23:45 1969 1

原创 KafkaAPI生产和消费数据

一、生产数据首先创建一个Maven的quickstart工程编辑pow.xml配置，导入依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/

2020-12-09 19:08:35 414

原创 MySql数据库数据接口暴露

以

2020-12-09 00:01:50 746 1

原创数仓学习——拉链表原理

一、拉链表原理1、引入在数据仓库的数据模型设计过程中，经常会遇到这样的需求：（1）数据量比较大。（2）表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等。（3）需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态。（4）查看某一个用户在过去某一段时间内，更新过几次等等。（5）变化的比例和频率不是很大，比如，总共有1000万的会员，每天新增和发生变化的有10万左右。（6）如果对这边表每天都保留一份全量，那么每次全量中会保存很多不

2020-11-13 22:26:08 2390

原创机器学习——K均值算法(K-means)

一、K均值算法1、引入如上图a所示，所有的绿色点为数据，从人的主观肉眼上明显看出，该数据分为两类，上面为一类，下面为一类。但是计算机并不知道，那计算机是怎么分类的呢？图b所示，计算机随机生成两个质心点(一般情况下计算机会从已有的原数据中选择质心点，而不是随机生成新的质心点)，一个红色一个蓝色。图c所示，计算机会根据每个点的坐标，去计算这些数据距离哪一个质心点距离最近，就把它分到哪一类中，c图所示，将数据一部分分为蓝色类，一部分分为红色类。接下来会更新质心点(质心点更新：将之前分好类的数据按照类

2020-11-08 17:58:23 2958 1

原创机器学习——决策树

一、决策树决策树时一种简单高效并且具有强解释性的模型，广泛应用于数据分析领域。其本质是一颗自上而下的由多个判断节点组成的树。图形分析：如上图所示，在模拟一个相亲的情况，女方首先会根据年龄判断自己是否会去见面，那年龄就是特征值，就是自变量，见或者不见就是结果，也就是因变量。年龄判断后再根据长相、收入、以及是否为公务员判断自己是否想见面。这就是一个决策数模型，当然每个人的第一个选择的根据当然也不会相同，有的人先根据年龄，有的人先根据收入或者长相，也导致了决策树模型的不同。二、决策树案例

2020-11-07 15:00:30 667

原创机器学习——线性回归

一、回归算法回归算法是一种有监督学习算法，用来建立自变量X和观测变量Y之间的映射关系，如果观测变量是离散的，则称其为分类Classification；如果观测变量是连续的，则称其为回归Regression。回归算法的目的是寻找假设函数hypothesis来最好的拟合给定的数据集。常用的回归算法有：线性回归（Linear Regression）、逻辑回归（Logistic Regression）、多项式回归（Polynomial Regression）、岭回归（Ridge Regression）、LAS

2020-11-07 09:03:41 368

原创机器学习——KNN近邻算法(鸢尾花数据集)

一、鸢尾花数据集

2020-11-06 21:57:01 1571

原创 Python学习——Matplotlib

一、Matplotlib介绍python中的matplotlib是一种用于创建图表的桌面绘图包(主要是2D方面)；使用python对matplotlib库操作使得对图形的显现极为方便。二、代码案例import matplotlibimport matplotlib.pyplot as pltif __name__=='__main__': #设置中文黑体 matplotlib.rcParams['font.sans-serif']=['SimHei'] #设置x、y

2020-11-05 00:24:55 181

原创机器学习——KNN近邻算法

一、KNN算法概述KNN可以说是最简单的分类算法之一，同时，它也是最常用的分类算法之一，注意KNN算法是有监督学习中的分类算法，它看起来和另一个机器学习算法Kmeans有点像（Kmeans是无监督学习算法），但却是有本质区别的。二、KNN算法介绍KNN的全称是K Nearest Neighbors，意思是K个最近的邻居，从这个名字我们就能看出一些KNN算法的蛛丝马迹了。K个最近邻居，毫无疑问，K的取值肯定是至关重要的。那么最近的邻居又是怎么回事呢？其实啊，KNN的原理就是当预测一个新的值x的时候

2020-11-04 23:50:53 494 1

原创 Scala数组函数

Scala数组函数1、++说明：合并集合，并且返回一个新数组注：因为数组中包含数字也包含字符串，所以会用Any顶级类型接收，如果数组中有重复内容，不会去重2、++:说明：合并集合，冒号右边的类型决定返回结果的类型3、+: / :+向数组前或者后添加一个元素，并且返回新的对象4、/： :\说明：左子树或者右子树，将某个数放置左边，每次和数组中的每个值进行操作，所得到的数值放置左边，然后在和下一个数组中的值操作。右子树一样。...

2020-09-18 23:32:16 3768

原创虚拟机Zeppelin安装

Zeppelin安装以及运行1、将zeppelin安装包解压到你想要安装的目录下面。并且重新命名。2、进入zeppelin的conf目录下面，复制该目录下面的zeppelin-site.xml.template 文件，复制为zeppelin-site.xml文件，然后编辑该文件。3、复制conf目录下面的zeppelin-env.sh.template文件，复制为zeppelin-env.sh文件，然后编辑该文件。4、启动zeppelin。进入zeppelin的bin目录，启动zeppel

2020-08-31 22:05:39 243

原创虚拟机Hive安装

Hive安装以及运行1、将下载好的hive安装包解压到你想要安装的虚拟的某个路径下面,然后再重命名以下。tar -zxvf hive-1.1.0-cdh5.14.2.tar.gz -C /opt/bigdata/hadoop/mv hive-1.1.0-cdh5.14.2.tar.gz/ hive1102、需要我们在安装好的hive目录的conf目录下面创建一个hive-site.xml文件，编写该配置文件。3、将mysql-java驱动拷贝到安装好的hive的lib目录下面。4、配置

2020-08-28 18:48:00 4821

原创虚拟机Hadoop高可用集群安装

Hadoop-ha集群安装1、首先在之前安装好的hadoop260目录下面创建一个data目录，然后在data目录下面再创建3个目录，分别为journalnode、pids、tmp。集群的所有虚拟机都要这样创建。2、然后我们需要配置hadoop里面的配置，首先配置environment。进入hadoop260目录下面的etc/hadoop目录下面，编辑里面的hadoop-env.sh文件。3、其次编辑core-site.xml文件。4、编辑hdfs-site.xml文件。5、编辑yar

2020-08-25 22:24:05 558

原创虚拟机Zookeeper集群配置

Zookeeper集群配置1、将Zookeeper压缩包解压到自己想要的安装的路径下。然后为了方便后续配置信息，可以重命名为zookeeper345文件。因为我下载的是3.4.5的版本。2、然后我们需要在zookeeper345的统计目录下创建一个目录为zookeeper,用于创建zookeeper的软连接。就好比在windows系统下安装一个软件，创建一个快件方式一样。ln -s zookeeper345/ zookeeper/3、之后我们在刚刚创建的zookeeper目录下面再创建一个zk

2020-08-21 23:10:34 994

原创虚拟机Hadoop集群配置安装及运行

Hadoop集群配置及运行一、集群配置二、运行一、集群配置1、修改安装好的hadoop260文件的用户权限，修改为root用户chown -R root:root hadoop260/2、设置JDK，进入安装好的hadoop260文件下的etc/hadoop/目录下，编辑hadoop-env.sh文件。二、运行...

2020-08-17 22:52:32 1768

原创虚拟机Hadoop安装

虚拟机Hadoop单机安装1、将所需要的hadoop安装包导入root用户的/etc/install/hadoop目录下，其中install和hadoop为自己新建的目录2、将hadoop-2.6.0-cdh5.14.2.tar.gz解压到/etc/bigdata/hadoop目录下，并且重命名为hadoop260。bigdata和hadoop为自己新建目录。、3、修改重命名文件的用户为root4、在安装好的hadoop的etc/hadoop/的目录下，编辑hadoop-env.sh文件，

2020-08-16 22:41:06 2593

原创 ElasticSearch简单介绍

ES简单介绍一、相关概念1、ElasticSearch2、集群（Cluster）3、节点（Node）二、端口关系三、NOSql非关系性数据库四、元素的语法一、相关概念1、ElasticSearch一个开源的高扩展的分布式全文搜索引擎，实时的存储、检索。扩展性较好的ES服务器。2、集群（Cluster）由一个或者多个节点构成，共同持有整个数据，并一起提供索引和搜索功能。一个集群有一个唯一的名字标识。3、节点（Node）一个节点是集群中的一个服务器。存储数据，参与集群的索引和搜索功能。

2020-08-15 22:49:53 755

原创 ElasticSearch分词器插件安装

ES分词器插件安装1、在安装好的ElacticSearch的plugins目录下面新建一个ik目录，用于存放分词器安装包解压后的文件。分词器版本为：elasticsearch-analysis-ik-6.2.2.zip。2、使用解压命令，将压缩包解压到ik目录下，此时会发现在ik目录下会生成一层目录为elasticsearch,在该目录下存放着解压后的所有文件。需要将这些文件移动到ik目录下面，然后再删除elasticsearch目录。最终效果如下。3、然后，为了让集群所有的虚拟机安装分词器，我们

2020-08-15 17:30:14 356

原创 ElasticSearcch集群一键启动

ElasticSearcch集群启动1、elasticsearch集群的启动不能在root用户下，所以使用su命名切换到自己建立的普通用户下。2、在根目录下面建立两个shell脚本，用来编写集群启动的代码。3、新建的文件是用户是没有执行权的，所以需要我们分别给两个文件授权。chmod u+x esstart.sh remote.sh4、编辑esstart.sh脚本信息如下图所示vi esstart.sh该脚本用来启动elasticsearch集群5、编辑remote.sh脚本信

2020-08-15 00:35:38 842

原创虚拟机es-head-master以及nodejs安装

一、ES-head-master安装1、获取head-master的安装包，将其导入到虚拟机的/opt/install/elk/目录下，opt为系统自带目录，install和elk目录需要自己创建，用于存放安装包。2、将其安装包，解压到/opt/bigdata/elk目录下，同样bigdata和elk目录需要自己创建。解压完成后重命名为eshm，完成安装.先解压到当前目录下/opt/install/elkunzip elasticsearch-head-master.zip再移动至/opt/b

2020-08-12 23:49:32 1043

原创 ElasticSearch运行配置

ElasticSearch运行配置一、配置一、配置1、首先将elasticsearch压缩包解压，并完成重命令，为es6222、

2020-08-12 22:39:33 856

原创 ElasticSearch日志收集以及HeadMaster日志展示

一、ElasticSearch日志收集1、首先将一个Isdemo.jar包导入虚拟机的root根目录下，该jar包为编写数据展示的表结构以及日志代码。2、在root根目录下面建一个mylog.log文件，用于存放执行Isdemo.jar包后产生的日志数据。该文件已经在jar包中指定。3、其次在root根目录下创建一个logstash.log文件，用于写配置信息。4、网上搜索logstash的安装包,要求与elasticsearch版本相同，将其放置/opt/install/elk目录下，然后再

2020-08-12 17:38:23 1034

原创 Shell常用命令2

Shell常用命令2一、流重定向二、Shell运行1、前台运行2、后台运行（&）三、自定义函数1、声明函数2、调用函数3、跳转四、文件中插入内容一、流重定向正确信息覆盖到文件filecommand > file正确信息追加到文件filecommand >> file错误信息覆盖到文件filecommand 2 > file错误信息追加到文件filecommand 2 >> file正确与错误信息覆盖到文件filecommand >fi

2020-08-12 00:05:59 542

原创 Linux集群免密登录以及常用命令2

一、设置虚拟主机与从机别名首先为所有虚拟机设置别名：hostnamectl set-hostname HOSTNAME查看别名：hostname二、虚拟机之间免密登录虚拟机之间如果需要相互免密登录，每个虚拟机要将需要进行免密登录的虚拟机相关联。将虚拟机的IP地址与设置好的别名相关联。进入主虚拟机的根目录：cd /root虚拟机之间相互免密登录，每个虚拟机都需要生成一把密钥，然后将这把密钥授权，最后分别远程拷贝给其他虚拟机，这样，每个虚拟机就可以访问其他虚拟机，而不需要输入密码，免密

2020-08-09 23:41:57 680

原创 Shell常用命令

Shell常用命令一、创建文件设置权限二、变量1、系统变量2、自定义变量1) 数据类型2) 声明变量3) 取消变量4) 变量的作用域5) 参数输入三、注释四、控制台输入五、运算符1、算数运算符和算数表达式![在这里插入图片描述](https://img-blog.csdnimg.cn/20200809154930675.PNG?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNz

2020-08-09 16:02:36 1287

原创 JAVA框架——Mybatis

JAVA框架——Mybatis一、JAVA框架1、什么是框架2、主流框架（1）Spring框架（2）Spring MVC框架（3）Mybatis框架二、Mybatis框架1、数据持久化2、框架简介3、优缺点4、应用范围5、Mybatis框架一、JAVA框架1、什么是框架框架：（Framework）是一个提供了可重用的公共结构的半成品。它为我们构建新的应用程序提供了极大的便利，不但提供了可以拿来就用的工具，更重要的是，还提供了可以重用的设计。骨架：对用应用程序来说，“框架”就是应用程序的骨架，开发者

2020-08-09 00:33:33 1000

空空如也

空空如也