自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(52)
  • 收藏
  • 关注

原创 DB2中的日期转化为字符串格式

【代码】DB2中的日期转化为字符串格式。

2024-03-04 16:21:22 910

原创 SQL中满足两个条件均不满足或均不等于某个值时的写法

【代码】SQL中满足两个条件均不满足或均不等于某个值时的写法。

2023-10-13 10:40:38 472

原创 DB2数据遇到的问题

NULL是一个不确定值它不能通过列值过滤,只能通过IS NULL 或者IS NOT NULL方式过滤。此外,若一个属性的值为null,则select显示时,会以-代替,而’'则直接什么都不显示。看日期中有空值,想用where条件过滤掉,写了is not null。在DB2中,null和’'是完全不同的两个东西。而‘’可以用in,=,,>,

2023-03-15 14:14:58 652

原创 redshift数据库中的sql语法

添加完schema:mysql_us_portal后,才能查到该shema下表ow_product的列信息。–查询schema:mysql_tp_data下所有的表。–给search_path添加scheme。

2022-09-30 15:11:05 936

原创 【无标题】

贪婪匹配和非贪婪匹配的区别 .* 和 .*?

2022-09-27 16:46:48 166

原创 Airflow调度redshift数据库中的数据

Airflow调度redshift数据库中的数据。

2022-09-26 17:48:07 400

原创 KMeans算法

K-means 是我们最常用的基于欧式距离的聚类算法,其认为两个目标的距离越近,相似度越大。K-means 的算法步骤为:选择 k 个样本作为初始聚类中心 ;针对数据集中每个样本分别计算它到 k 个聚类中心的距离并将其分到距离最小的聚类中心所对应的类中;针对每个类别,重新计算它的聚类中心重复上面 2 3 两步操作,直到达到某个中止条件(迭代次数、最小误差变化等)。Python代码:import findsparkfindspark.init()from pyspark.sql import

2021-05-12 22:35:49 135

原创 决策树,随机森林和极限森林算法

决策树:https://www.cnblogs.com/molieren/articles/10664954.htmlfrom sklearn import datasetsfrom sklearn.model_selection import train_test_split,cross_val_scorefrom sklearn.tree import DecisionTreeClassifierfrom sklearn.ensemble import RandomForestClassifie

2021-05-12 22:34:38 358

原创 JAVA拉取Hive的数据导入到MySQL中

1.pom文件需要的依赖 <!-- https://mvnrepository.com/artifact/org.mybatis/mybatis --> <dependency> <groupId>org.mybatis</groupId> <artifactId>mybatis</artifactId> <version>3.4.6</version> .

2021-04-22 18:59:47 930

原创 FineReport连接Hive

1.准备jar包,复制到D:\FineReport_10.0\webapps\webroot\WEB-INF\lib下其中jar包要到如下的几个路径下去复制:/opt/soft/hadoop260/share/hadoop/common/opt/soft/hive110/lib还可以去自己的idea本地仓库还没有的话可以去maven复制到idea工程,然后去本地仓库复制2.重启finereport,配置hive数据连接,点击测试连接,显示成功就可以点击确定...

2021-04-22 17:00:11 1558 1

原创 Linux下安装Python,并在Linux下运行python代码文件

CentOS配置源1.查看本地yum源ll /etc/yum.repos.d/2.把默认yum源备份mkdir /opt/centos-yum.bakmv /etc/yum.repos.d/* /opt/centos-yum.bak/3.查看系统的版本cat /etc/redhat-release4.下载对应的YUM源:wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.

2021-04-13 10:24:17 593

原创 虚拟机下安装hbase

1.前置安装hadoop 以及 zookeeper,(这里安装了hadoop2.6.0及zookeeper3.4.6)2.需要压缩包hbase-1.2.0-cdh5.14.2.tar.gz解压,重命名,授权tar -zxf hbase-1.2.0-cdh5.14.2.tar.gz -C /opt/soft/mv hbase-1.2.0-cdh5.14.2/ hbase120chown -R root:root hbase120/设置配置信息:cd /opt/soft/hbase120/con

2021-04-08 12:15:50 1270

原创 Flink的分流操作,分别用split-select和process-getSideOutput实现

package org.exampleimport org.apache.flink.streaming.api.scala._import scala.collection.mutable.ArrayBufferobject MyRandom { def main(args: Array[String]): Unit = { //创建执行环境 val env = StreamExecutionEnvironment.getExecutionEnvironment //设

2021-04-04 16:39:08 588

原创 自定义Flink的数据源

自定义时间数据源继承SourceFunctionimport java.util.Dateimport org.apache.flink.streaming.api.functions.source.SourceFunctionclass MySource extends SourceFunction[String]{ var flag = true override def run(sourceContext: SourceFunction.SourceContext[String]):

2021-04-04 15:59:59 85

原创 Flink读取kafka中的数据

import java.util.Propertiesimport org.apache.flink.api.common.serialization.SimpleStringSchemaimport org.apache.flink.streaming.api.scala._import org.apache.flink.streaming.connectors.kafka.{FlinkKafkaConsumer}import org.apache.kafka.clients.consumer.

2021-04-04 15:09:43 271

原创 Flink读取一个文件或者一个集合的简单demo

import org.apache.flink.streaming.api.scala._case class Userinfos(userid:Int,username:String)object First { def main(args: Array[String]): Unit = { //获取一个execution environment执行环境 val env = StreamExecutionEnvironment.getExecutionEnvironment

2021-04-04 14:24:22 167

原创 spark streaming去读取kafka各个topic中的文件数据

pom文件添加的依赖: <dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.11</version> <scope>test</scope> </dependency>

2021-03-31 19:33:14 316

原创 spark streaming【窗口内】实现wordcount

通过netcat产生实时数据源安装netcat:yum install nmap-ncat.x86_64设置端口:nc -lk 1234spark streaming的java代码设置微批处理的时间为5秒:object NcWordCountTest { def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local[*]").setAppName("wc") val ssc

2021-03-30 19:28:13 77

原创 利用flume把文件传到kafka的topic中

数据准备把需要传输的文件event_attendees.csv放到新建的文件下,我的路径是/root/data/event_attendees开启服务zkServer.sh startkafka-server-start.sh /opt/soft/kafka211/config/server.propertiesflume准备工作:在root下新建文件夹flume和flumeconf,flume下新建文件夹checkpoint和data,flumeconf下新建配置文件event_attend

2021-03-30 19:13:47 1402

原创 JAVA多线程向kafka的topic各分区中写入本地数据

kafka准备工作:开启zookeeper服务和kafka服务zkServer.sh startkafka-server-start.sh /opt/soft/kafka211/config/server.properties 创建副本为1,分区为4的topic:mydemo1kafka-topics.sh --zookeeper 192.168.181.132:2181 --create --topic mydemo1 --replication-factor 1 --partitions

2021-03-29 19:25:44 960

原创 安装SQOOP

准备工作:已安装hadoop2.6.0和hive 1.1.0压缩包sqoop-1.4.6-cdh5.14.2.tar.gzjar包:hive的lib目录下hive-common和hive-shims系列以及mysql-connector-java-5.1.32.jar和java-json.jar解压并重命名tar -zxf sqoop-1.4.6-cdh5.14.2.tar.gz -C /opt/soft/mv sqoop-1.4.6-cdh5.14.2.tar.gz sqoop146配置环

2021-03-23 00:26:23 68

原创 高可用hadoop集群搭建

准备工作安装3台centos7 服务器配置主机名字hd01\hd02\hd03hostnamectl set-hostname hd01查询地址ip addr连接xshell:填写名称:hostname 主机:ip地址 用户身份验证可以向xshell窗口拖拽文件: yum -y install lrzszhostname和ip地址形成映射:vi /etc/hosts192.168.181.131 hd01192.168.181.132 hd02192.168.18

2021-03-21 19:04:01 427

原创 SSM中Spring MVC案例演示

JDK 新建一个工程,改以下三处:pom文件中添加依赖:MySQL系列:mysql-connector-javamybatis系列:mybatis,mybatis-springJackson系列:jackson-databind,jackson-core,jackson-annotationsspring系列:spring-core,spring-context,spring-beans,spring-webmvc,spring-tx,spring-jdbcdbcp:commons-dbc

2021-03-21 00:00:15 129 2

原创 虚拟机下安装zeppelin

1.前置安装hadoop 以及 zookeeperh,hive(这里安装了hadoop2.6.0及zookeeper3.4.6,hive1.1.0)2.安装mysql数据库3.需要压缩包zeppelin-0.8.1-bin-all.tgz拷贝jar包和文件cp /opt/software/hadoop/hadoop260/share/hadoop/common/hadoop-common-2.6.0-cdh5.14.2.jar /opt/software/hadoop/zeppelin082/con

2021-03-13 19:24:20 564

原创 虚拟机下安装hive

1.前置安装hadoop 以及 zookeeper(这里安装了hadoop2.6.0及zookeeper3.4.6)2.安装mysql数据库3.需要压缩包hive-1.1.0-cdh5.14.2.tar.gz以及mysql-connector-java-5.1.32拷贝mysql驱动到hive/lib下cp mysql-connector-java-5.1.32 /opt/software/hadoop/hive110/lib 解压缩,重命名,授权tar -zxvf hive-1.1.0-cd

2021-03-13 16:55:54 1675

原创 SSM连接操作mysql数据库进行增删改查

pom文件要加两个依赖<!-- https://mvnrepository.com/artifact/mysql/mysql-connector-java --><dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.38</version></depe

2021-03-13 10:55:32 382

原创 虚拟机下和Windows环境下安装HADOOP

HADOOP配置按下面命令解压缩压缩包,并改名[root@localhost opt]# tar -zxf hadoop-2.6.0-cdh5.14.2.tar.gz -C /opt/soft/[root@localhost soft]# mv hadoop-2.6.0-cdh5.14.2 hadoop260更改hadoop文件夹的权限为rootchown -R root:root hadoop260/在hadoop260下新建文件夹tmp,在tmp下新建data 和name 文件夹

2021-03-12 21:24:18 271

原创 在虚拟机下安装jdk和mysql

xshell窗口能拖拽文件:[root@localhost ~]# yum -y install lrzsz设置免密登录:https://blog.csdn.net/dontlikerabbit/article/details/112488843?spm=1001.2014.3001.5501安装JDK#查看主机名hostname#设置主机名hostnamectl set-hostname singlevi /etc/hosts:把ip地址和主机名形成映射#网络配置vi /etc/

2021-03-12 21:23:14 98

原创 安装虚拟机并连接xshell,超详细教程

新建虚拟机:点击浏览,选择自己下载的镜像文件修改虚拟机的名称,和虚拟机的安装位置改选单个文件点击自定义硬件:把声卡和打印机点击移除后关闭点击完成选择第一个install CentOS 7回车选择语言设置日期和时间以及网络和主机名时间调整和主机的时间一致把网络打开设置root密码并创建用户,等下面的进度条完成后点击重启...

2021-03-10 10:55:05 1353

原创 用python和Java连接MySQL数据库,插入百万,千万条数据

python代码:需要用到 pymysql模块,python没有的话可以通过以下方式安装:运行Anaconda Prompt(C:\ProgramData\Anaconda3) C:\Users\Administrator\Documents>activate pydemo(pydemo) C:\Users\Administrator\Documents>pip inatall pymysqlimport pymysql.cursorsimport randomimport

2021-03-09 19:47:26 670

原创 Hive数据倾斜

数据倾斜的定义:数据倾斜的原因:某些节点计算的能力较差或者由于此节点需要计算的数据比较多,导致数据倾斜在hive中产生数据倾斜的场景:group by产生数据倾斜开启Map端聚合参数设置大表和小表进行join操作使用mapjoin 将小表加载到内存空值产生的数据倾斜id为空的不参与关联给空值分配随机的key值小文件过多或文件过于复杂合理设置map和reduce数2.4 表的优化2.4.1 小表、大表 Join将 key 相对分散,并且数据量小的表放在 join 的左边,这样可以

2021-03-01 23:21:39 180

原创 flume采集日志,利用kafka的consumer来显示其日志,再利用flume写到HDFS上

准备zookeeper,flume,kafka安装,详见博客:https://blog.csdn.net/dontlikerabbit/article/details/112673880把/opt/software/spark/flume190/lib下的guava-11.0.2.jar删掉在 /opt下新建applog文件夹,把logmaker-2.0.jar包(需要自己写,带后续上传jar内容)放在下面执行jar包:nohup java -jar logmaker-2.0.jar /opt/a

2021-01-18 19:21:32 205

原创 数仓集群环境的搭建

准备工作首先准备四台虚拟机master01,master02,slave01,slave02在/opt下新建software,software下新建 base hadoop spark文件夹:base文件下放jdk和scala解压缩的文件夹,hadoop下放hadoop压缩包解压缩的文件夹,注意该文件夹的用户要为root,不是的话用chown -R root:root hadoop313命令修改在/opt/software/hadoop/hadoop313下新建data文件夹,在data文件夹下新建

2021-01-18 17:18:46 232 1

原创 zookeeper、Kafka、flume的安装

解压缩到路径cd /opt/software/spark/ 并改名kafka241在kafka241下新建文件夹kfklogs修改/opt/software/spark/kafka241/config/server.properties里面的几个配置broker.id=4listeners = PLAINTEXT://master:9092log.dirs=/opt/software/spark/kafka241/kfklogskafka-server-start.sh -daemon /opt

2021-01-18 17:15:44 149 1

原创 多台虚拟机之间实现免密登录

虚拟机免密登录的操作步骤1.输入命令:hostname,查看当前主机名。输入命令:ip addr,查看当前主机的IP地址    2.输入命令:vi /etc/hosts,写入需要互相免密的虚拟机的ip和hostname 3.根目录下,输入命令:ls -la,查看是否有“.ssh”文件,如果没有的话,输入命令:ssh-keygen -t rsa,并连续按3下回车键,然后在根目录下就会生成“.ssh”文件,文件里有生成的私钥id_rsa和公钥id_rsa.pub。  3.输入命令:cat id_

2021-01-11 20:15:25 2124 2

原创 spark创建Dateset的几种方式

一:通过createDataset(seq,list,rdd)import org.apache.spark.SparkContextimport org.apache.spark.sql.{Dataset, SparkSession}object CreateDataset { def main(args: Array[String]): Unit = { val spark: SparkSession = SparkSession.builder().master("local[4]

2021-01-10 19:02:52 1083

原创 Spark连接MySQL,Hive,Hbase

Spark连接MySQLobject ConnectMysql { def main(args: Array[String]): Unit = { val spark: SparkSession = SparkSession.builder().master("local[4]").appName(this.getClass.getName).getOrCreate() //设置要访问的mysql的url,表名 val url = "jdbc:mysql://singer:33

2021-01-09 17:23:41 188 2

原创 Java连接Mysql,Hive,Hbase

Java连MySQLpublic class BaseConfig{ private class Config{ String driver; String url; String username; String password; public Config(String driver,String url, String username, String password) {

2021-01-09 14:35:37 78 1

原创 scala中函数算子示例详解

scala> var a1 = Array(“a”,“b”,“c”)a1: Array[String] = Array(a, b, c)scala> var a2 =Array(“1”,“2”,“3”)a2: Array[String] = Array(1, 2, 3)++ 和++:两个集合合并,基本上没有区别,:后指向类型scala> a1++a2res0: Array[String] = Array(a, b, c, 1, 2, 3)scala> a1++:a2r

2020-12-26 17:35:19 1263

原创 HIVE查询以及窗口函数示例

–order by:指定列排序select name, dept_num, employee_id,salary from employee_contractorder by salary desc;±---------±----------±-------------±--------±-+| name | dept_num | employee_id | salary |±---------±----------±-------------±---

2020-12-11 15:12:35 530

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除