dontlikerabbit-CSDN博客

原创 DB2中的日期转化为字符串格式

【代码】DB2中的日期转化为字符串格式。

2024-03-04 16:21:22 979

原创 SQL中满足两个条件均不满足或均不等于某个值时的写法

【代码】SQL中满足两个条件均不满足或均不等于某个值时的写法。

2023-10-13 10:40:38 511

原创 DB2数据遇到的问题

NULL是一个不确定值它不能通过列值过滤，只能通过IS NULL 或者IS NOT NULL方式过滤。此外，若一个属性的值为null，则select显示时，会以-代替，而’'则直接什么都不显示。看日期中有空值,想用where条件过滤掉,写了is not null。在DB2中，null和’'是完全不同的两个东西。而‘’可以用in，=，,>,

2023-03-15 14:14:58 667

原创 redshift数据库中的sql语法

添加完schema：mysql_us_portal后，才能查到该shema下表ow_product的列信息。–查询schema：mysql_tp_data下所有的表。–给search_path添加scheme。

2022-09-30 15:11:05 951

原创【无标题】

贪婪匹配和非贪婪匹配的区别 .* 和 .*?

2022-09-27 16:46:48 170

原创 Airflow调度redshift数据库中的数据

Airflow调度redshift数据库中的数据。

2022-09-26 17:48:07 407

K-means 是我们最常用的基于欧式距离的聚类算法，其认为两个目标的距离越近，相似度越大。K-means 的算法步骤为：选择 k 个样本作为初始聚类中心；针对数据集中每个样本分别计算它到 k 个聚类中心的距离并将其分到距离最小的聚类中心所对应的类中；针对每个类别，重新计算它的聚类中心重复上面 2 3 两步操作，直到达到某个中止条件（迭代次数、最小误差变化等）。Python代码：import findsparkfindspark.init()from pyspark.sql import

2021-05-12 22:35:49 137

原创决策树，随机森林和极限森林算法

决策树：https://www.cnblogs.com/molieren/articles/10664954.htmlfrom sklearn import datasetsfrom sklearn.model_selection import train_test_split,cross_val_scorefrom sklearn.tree import DecisionTreeClassifierfrom sklearn.ensemble import RandomForestClassifie

2021-05-12 22:34:38 365

原创 JAVA拉取Hive的数据导入到MySQL中

1.pom文件需要的依赖  <dependency> <groupId>org.mybatis</groupId> <artifactId>mybatis</artifactId> <version>3.4.6</version> .

2021-04-22 18:59:47 936

原创 FineReport连接Hive

1.准备jar包，复制到D:\FineReport_10.0\webapps\webroot\WEB-INF\lib下其中jar包要到如下的几个路径下去复制：/opt/soft/hadoop260/share/hadoop/common/opt/soft/hive110/lib还可以去自己的idea本地仓库还没有的话可以去maven复制到idea工程，然后去本地仓库复制2.重启finereport，配置hive数据连接，点击测试连接，显示成功就可以点击确定...

2021-04-22 17:00:11 1567 1

原创 Linux下安装Python,并在Linux下运行python代码文件

CentOS配置源1.查看本地yum源ll /etc/yum.repos.d/2.把默认yum源备份mkdir /opt/centos-yum.bakmv /etc/yum.repos.d/* /opt/centos-yum.bak/3.查看系统的版本cat /etc/redhat-release4.下载对应的YUM源：wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.

2021-04-13 10:24:17 599

原创虚拟机下安装hbase

1.前置安装hadoop 以及 zookeeper,(这里安装了hadoop2.6.0及zookeeper3.4.6)2.需要压缩包hbase-1.2.0-cdh5.14.2.tar.gz解压，重命名，授权tar -zxf hbase-1.2.0-cdh5.14.2.tar.gz -C /opt/soft/mv hbase-1.2.0-cdh5.14.2/ hbase120chown -R root:root hbase120/设置配置信息：cd /opt/soft/hbase120/con

2021-04-08 12:15:50 1278

原创 Flink的分流操作，分别用split-select和process-getSideOutput实现

package org.exampleimport org.apache.flink.streaming.api.scala._import scala.collection.mutable.ArrayBufferobject MyRandom { def main(args: Array[String]): Unit = { //创建执行环境 val env = StreamExecutionEnvironment.getExecutionEnvironment //设

2021-04-04 16:39:08 596

原创自定义Flink的数据源

自定义时间数据源继承SourceFunctionimport java.util.Dateimport org.apache.flink.streaming.api.functions.source.SourceFunctionclass MySource extends SourceFunction[String]{ var flag = true override def run(sourceContext: SourceFunction.SourceContext[String]):

2021-04-04 15:59:59 86

原创 Flink读取kafka中的数据

import java.util.Propertiesimport org.apache.flink.api.common.serialization.SimpleStringSchemaimport org.apache.flink.streaming.api.scala._import org.apache.flink.streaming.connectors.kafka.{FlinkKafkaConsumer}import org.apache.kafka.clients.consumer.

2021-04-04 15:09:43 274

原创 Flink读取一个文件或者一个集合的简单demo

import org.apache.flink.streaming.api.scala._case class Userinfos(userid:Int,username:String)object First { def main(args: Array[String]): Unit = { //获取一个execution environment执行环境 val env = StreamExecutionEnvironment.getExecutionEnvironment

2021-04-04 14:24:22 168

原创 spark streaming去读取kafka各个topic中的文件数据

pom文件添加的依赖： <dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.11</version> <scope>test</scope> </dependency>

2021-03-31 19:33:14 319

原创 spark streaming【窗口内】实现wordcount

通过netcat产生实时数据源安装netcat：yum install nmap-ncat.x86_64设置端口：nc -lk 1234spark streaming的java代码设置微批处理的时间为5秒：object NcWordCountTest { def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local[*]").setAppName("wc") val ssc

2021-03-30 19:28:13 78

原创利用flume把文件传到kafka的topic中

数据准备把需要传输的文件event_attendees.csv放到新建的文件下，我的路径是/root/data/event_attendees开启服务zkServer.sh startkafka-server-start.sh /opt/soft/kafka211/config/server.propertiesflume准备工作：在root下新建文件夹flume和flumeconf,flume下新建文件夹checkpoint和data，flumeconf下新建配置文件event_attend

2021-03-30 19:13:47 1410

原创 JAVA多线程向kafka的topic各分区中写入本地数据

kafka准备工作：开启zookeeper服务和kafka服务zkServer.sh startkafka-server-start.sh /opt/soft/kafka211/config/server.properties 创建副本为1，分区为4的topic：mydemo1kafka-topics.sh --zookeeper 192.168.181.132:2181 --create --topic mydemo1 --replication-factor 1 --partitions

2021-03-29 19:25:44 964

原创安装SQOOP

准备工作：已安装hadoop2.6.0和hive 1.1.0压缩包sqoop-1.4.6-cdh5.14.2.tar.gzjar包：hive的lib目录下hive-common和hive-shims系列以及mysql-connector-java-5.1.32.jar和java-json.jar解压并重命名tar -zxf sqoop-1.4.6-cdh5.14.2.tar.gz -C /opt/soft/mv sqoop-1.4.6-cdh5.14.2.tar.gz sqoop146配置环

2021-03-23 00:26:23 68

原创高可用hadoop集群搭建

准备工作安装3台centos7 服务器配置主机名字hd01\hd02\hd03hostnamectl set-hostname hd01查询地址ip addr连接xshell：填写名称:hostname 主机：ip地址用户身份验证可以向xshell窗口拖拽文件： yum -y install lrzszhostname和ip地址形成映射：vi /etc/hosts192.168.181.131 hd01192.168.181.132 hd02192.168.18

2021-03-21 19:04:01 430

原创 SSM中Spring MVC案例演示

JDK 新建一个工程，改以下三处：pom文件中添加依赖：MySQL系列：mysql-connector-javamybatis系列：mybatis，mybatis-springJackson系列：jackson-databind，jackson-core，jackson-annotationsspring系列：spring-core，spring-context，spring-beans，spring-webmvc，spring-tx，spring-jdbcdbcp：commons-dbc

2021-03-21 00:00:15 131 2

原创虚拟机下安装zeppelin

1.前置安装hadoop 以及 zookeeperh,hive(这里安装了hadoop2.6.0及zookeeper3.4.6,hive1.1.0)2.安装mysql数据库3.需要压缩包zeppelin-0.8.1-bin-all.tgz拷贝jar包和文件cp /opt/software/hadoop/hadoop260/share/hadoop/common/hadoop-common-2.6.0-cdh5.14.2.jar /opt/software/hadoop/zeppelin082/con

2021-03-13 19:24:20 565

原创虚拟机下安装hive

1.前置安装hadoop 以及 zookeeper(这里安装了hadoop2.6.0及zookeeper3.4.6)2.安装mysql数据库3.需要压缩包hive-1.1.0-cdh5.14.2.tar.gz以及mysql-connector-java-5.1.32拷贝mysql驱动到hive/lib下cp mysql-connector-java-5.1.32 /opt/software/hadoop/hive110/lib 解压缩，重命名，授权tar -zxvf hive-1.1.0-cd

2021-03-13 16:55:54 1676

原创 SSM连接操作mysql数据库进行增删改查

pom文件要加两个依赖<dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.38</version></depe

2021-03-13 10:55:32 391

原创虚拟机下和Windows环境下安装HADOOP

HADOOP配置按下面命令解压缩压缩包，并改名[root@localhost opt]# tar -zxf hadoop-2.6.0-cdh5.14.2.tar.gz -C /opt/soft/[root@localhost soft]# mv hadoop-2.6.0-cdh5.14.2 hadoop260更改hadoop文件夹的权限为rootchown -R root:root hadoop260/在hadoop260下新建文件夹tmp,在tmp下新建data 和name 文件夹

2021-03-12 21:24:18 274

原创在虚拟机下安装jdk和mysql

xshell窗口能拖拽文件：[root@localhost ~]# yum -y install lrzsz设置免密登录：https://blog.csdn.net/dontlikerabbit/article/details/112488843?spm=1001.2014.3001.5501安装JDK#查看主机名hostname#设置主机名hostnamectl set-hostname singlevi /etc/hosts:把ip地址和主机名形成映射#网络配置vi /etc/

2021-03-12 21:23:14 99

原创安装虚拟机并连接xshell，超详细教程

新建虚拟机：点击浏览，选择自己下载的镜像文件修改虚拟机的名称，和虚拟机的安装位置改选单个文件点击自定义硬件：把声卡和打印机点击移除后关闭点击完成选择第一个install CentOS 7回车选择语言设置日期和时间以及网络和主机名时间调整和主机的时间一致把网络打开设置root密码并创建用户，等下面的进度条完成后点击重启...

2021-03-10 10:55:05 1372

原创用python和Java连接MySQL数据库，插入百万，千万条数据

python代码：需要用到 pymysql模块，python没有的话可以通过以下方式安装：运行Anaconda Prompt(C:\ProgramData\Anaconda3) C:\Users\Administrator\Documents>activate pydemo(pydemo) C:\Users\Administrator\Documents>pip inatall pymysqlimport pymysql.cursorsimport randomimport

2021-03-09 19:47:26 673

原创 Hive数据倾斜

数据倾斜的定义：数据倾斜的原因：某些节点计算的能力较差或者由于此节点需要计算的数据比较多，导致数据倾斜在hive中产生数据倾斜的场景：group by产生数据倾斜开启Map端聚合参数设置大表和小表进行join操作使用mapjoin 将小表加载到内存空值产生的数据倾斜id为空的不参与关联给空值分配随机的key值小文件过多或文件过于复杂合理设置map和reduce数2.4 表的优化2.4.1 小表、大表 Join将 key 相对分散，并且数据量小的表放在 join 的左边，这样可以

2021-03-01 23:21:39 182

原创 flume采集日志，利用kafka的consumer来显示其日志，再利用flume写到HDFS上

准备zookeeper，flume，kafka安装，详见博客：https://blog.csdn.net/dontlikerabbit/article/details/112673880把/opt/software/spark/flume190/lib下的guava-11.0.2.jar删掉在 /opt下新建applog文件夹，把logmaker-2.0.jar包（需要自己写，带后续上传jar内容）放在下面执行jar包：nohup java -jar logmaker-2.0.jar /opt/a

2021-01-18 19:21:32 210

原创数仓集群环境的搭建

准备工作首先准备四台虚拟机master01，master02，slave01，slave02在/opt下新建software，software下新建 base hadoop spark文件夹：base文件下放jdk和scala解压缩的文件夹，hadoop下放hadoop压缩包解压缩的文件夹，注意该文件夹的用户要为root，不是的话用chown -R root:root hadoop313命令修改在/opt/software/hadoop/hadoop313下新建data文件夹，在data文件夹下新建

2021-01-18 17:18:46 232 1

空空如也

空空如也