- 博客(55)
- 收藏
- 关注
原创 Teradata数据库使用笔记(1)--Teradata安装
Teradata数据库使用笔记(1)--Teradata安装_肆尾葱的博客-CSDN博客_teradata数据库安装Teradata使用笔记(2)--数据库操作_肆尾葱的博客-CSDN博客_teradata使用教程
2022-02-28 11:21:56 1269
原创 gaussDB数据库常用操作命令
GaussDB命令行连接1.1ssh连接主机,IP:192.168.28.178,用户名:root,密码:Huawei@1231.2 切换至bin目录,cd /home/gaussdba/app/bin/1.3 切换用户为gaussdba,su gaussdba1.4 连接gaussDb,gsql -d postgres -p 5432基本操作命令...
2022-02-28 10:59:51 18763 1
原创 hive四种存储格式和排序方式介绍与分析比较
1、TextFileTextFile文件不支持块压缩,默认格式,数据不做压缩,磁盘开销大,数据解析开销大。这边不做深入介绍。2、RCFileRecord Columnar的缩写。是Hadoop中第一个列文件格式。能够很好的压缩和快速的查询性能,但是不支持模式演进。通常写操作比较慢,比非列形式的文件格式需要更多的内存空间和计算量。RCFile是一种行列存储相结合的存储方式。首先,其将数据按行分块,保证同一个record在一个块上,避免读一个记录需要读取多个block。其次,块数据列式存
2022-02-07 23:40:48 418
原创 kafka参数优化
(1)Broker参数配置(server.properties)1.网络和io操作线程配置优化# broker处理消息的最大线程数(默认为3)num.network.threads=cpu核数+1# broker处理磁盘IO的线程数num.io.threads=cpu核数*22、log数据文件刷盘策略# 每当producer写入10000条消息时,刷数据到磁盘log.flush.interval.messages=10000# 每间隔1秒钟时间,刷数据到磁盘lo
2022-02-07 19:10:42 456
原创 linux常用命令
arch 显示机器的处理器 架构 (1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示CPU info的信息 cat /proc/interrupts 显示中断 cat /proc/meminfo 校验.
2022-02-07 10:07:43 85
原创 使用canal保持mysql与kafka数据同步
1.下载canelhttps://github.com/alibaba/canal/releases2.开启MySQL的binlog配置 如果你忘记了my.cnf的路径find / -name my.cnfcd /etcvi my.cnf#打开my.cnf(window my.ini) 在【mysqld】块中添加 server-id=1log-bin=mysql-bin binlog_format=row binlog-do-db=你数据库的名字 多个用逗号隔开(这里是
2022-01-18 20:51:32 2199
原创 flume配置文件详解
a1.sources = r1a1.sinks = k1a1.channels = c1##注意:不能往监控目中重复丢同名文件a1.sources.r1.type = spooldir (cdh) /exec(cdh) /taildir(apache1.7版本之后,监控文件和目录,断点续查)a1.sources.r1.spoolDir = /root/logs2 //监控的文件夹a1.sources.r1.fileHeader = truea1.sinks.k1.type = hdfs.
2021-12-30 10:23:34 1588
原创 Flink入门到清明(持续上香中)
和其他所有的计算框架一样,flink也有一些基础的开发步骤以及基础,核心的API,从开发步骤的角度来讲,主要分为四大部分1.EnvironmentFlink Job在提交执行计算时,需要首先建立和Flink框架之间的联系,也就指的是当前的flink运行环境,只有获取了环境信息,才能将task调度到不同的taskManager执行。而这个环境对象的获取方式相对比较简单2.SourceFlink框架可以从不同的来源获取数据,将数据提交给框架进行处理, 我们将获取数据的来源称之为数据源.3.T
2021-12-29 10:36:12 1144
原创 Mongodb安装
1. 下载Mongodbhttps://www.mongodb.com/try/download/community这里我选择的版本是3.6.23下载完成后上传到虚拟机2.解压并移动到指定目录tar -zxf mongodb-linux-x86_64-rhel70-3.6.23.tgzmv mongodb-linux-x86_64-rhel70-3.6.23 soft/mongodb3.配置环境变量并测试#mongodb 修改/etc/profileexport M
2021-12-29 10:35:23 727
原创 安装FastDFS图片服务器
1.前置工作下载安装包#到 https://github.com/happyfish100 下载fastdfs-master、libfastcommon-master、fastdfs-nginx-module-master#到 http://nginx.org/en/download.html 下载 nginx-1.14.2.tar.gz2.前置安装运行库yum install -y unzip zip perl gcc-c++yum -y install zlib ..
2021-12-23 23:53:01 1501
原创 hive分区表
首先有这样的一张csv数据表名称叫做test.csv将test.csv上传至hdfs 然后在zeppelin中创建一张分区表create table exam.userbehavior_partitioned( user_id string, item_id string, category_id string, behavior_type string, time string ) partitioned by (dt st.
2021-12-21 20:22:02 1134
原创 hive 数据仓库跟mysql数据库的区别
1、查询语言不同:hive是hql语言,mysql是sql语句;2、数据存储位置不同:hive是把数据存储在hdfs上,而mysql数据是存储在自己的系统中;3、数据格式:hive数据格式可以用户自定义,mysql有自己的系统定义格式;4、数据更新:hive不支持数据更新,只可以读,不可以写,而sql支持数据更新;5、索引:hive没有索引,因此查询数据的时候是通过mapreduce很暴力的把数据都查询一遍,也造成了hive查询数据速度很慢的原因,而mysql有索引;6、延迟性:hive
2021-12-21 20:08:12 1227
原创 spark-hdfs-hive-hbase
打开虚拟机首先确保虚拟机上安装了hadoop spark hive hbase然后依次启动启动hbase 首先先确保 先启动zekooperhadoop启动命令 start-all.shhive 启动 hive --service hiveserver2 & 后台启动 不想后台的话就不用加&zkserve.sh start 启动zekooperhbase start-hbase.shhive --service metastroe 启动spark...
2021-12-21 08:38:49 1714 2
原创 mysql 查询分类前几名
在oracle 中我们可以利用窗口函数row nomber 来查查询分组前几名 但是在mysql中式没有窗口函数的 那么mysql中如何实现分类排名查询呢这里我就写一个简单的例子create table student( id varchar(20),-- 编号 class varchar(20),-- 年级 score int-- 分数);delete from student;insert student values('1','一年级',82);insert student v
2021-12-16 12:26:06 964
原创 mysql 练习题加进阶练习
DROP DATABASE IF EXISTS exps;CREATE DATABASE exps;USE exps;CREATE TABLE s1_student( sno VARCHAR(10) PRIMARY KEY, sname VARCHAR(30), sbirthday VARCHAR(30), ssex VARCHAR(10), sclass VARCHAR(10));CREATE TABLE s1_teacher( tno VARC.
2021-12-16 12:09:20 801
原创 FineReport 的使用(持续更新中)
1. 概述报表是以表格、图表的形式来动态展示数据,企业通过报表进行数据分析,进而用于辅助经营管理决策。FineReport 就是一款用于报表制作,分析和展示的工具。2. 产品定位FineReport 是帆软自主研发的企业级 Web 报表工具,秉持零编码的理念,易学易用,功能强大,经过多年的打磨,已经成长为中国报表软件领导品牌。FineReport 通过简单的拖拽操作便可制作中国式复杂报表,轻松实现报表的多样化展示、交互分析、数据录入、权限管理、定时调度、打印输出、门户管理和移动应用等需.
2021-12-14 23:27:12 1372
原创 mysql 优化之索引视图和索引为何未调用
如何判断语句运行速度的快慢呢 执行计划在mysql中我们可以通过explain显示了mysql如何使用索引来处理select语句以及连接表。可以帮助选择更好的索引和写出更优化的查询语句我们在查询mysql语句时经常会出现查询速度极其缓慢的状态 这种情况可能会有多种情况构成比如sql语句书写不规范 函数运用不规范等等 这个需要你去长久的书写练习今天要说的mysql 语句是从mysql 索引和视图方面进行语句调优什么是索引 索引有什么用 这个不需要多说 百度都有哈 索引也就是提前把sql语.
2021-12-14 23:14:52 175
原创 java简单实现wordcount代码
Mapperpublic class workcountmapper extends Mapper<LongWritable, Text,Text, IntWritable> { Text outk =new Text(); IntWritable outv=new IntWritable(1); @Override protected void map(LongWritable key, Text value, Context context) thr.
2021-12-13 23:58:10 875
原创 MapReduce工作流程
1. client 客户端有一个文件 200m2. 客户端subnmit()之前 对文件进行切片 hadoop默认切片为128m 所以会切成2片3.客户端提交信息 job.split wc.jar job.xml 如果是本地模式没有jar包4.提交信息给yarn yarn启动 MRAppMaster 进程计算出MapTask数量5.当实例化一个maptask后,创建TextInputFormat,调用里面的RecoreReader方法将切片读取封装成(k,v)传送给Mapper6...
2021-12-13 23:41:11 1079
原创 java 经典循环练习
public class Test { @org.junit.Test public void test_1(){ //求水仙花数 for (int i = 100; i <= 999; i++) { int a = i/100; int b = (i - a*100)/10; int c = i%10; if (i == a*a*a + b*b*b.
2021-12-13 21:39:27 142
原创 hdfs读写流程
1.首先上传一个文件client 如果是200m的话 blk1 blk2两个切片文件2.向namenode发送数据请求 判断是否重名 判断成功然后上传文件3.确定可以上传 我要上传blk1到那几个datanode上4.namenode返回三个datanodedn1 dn2 dn35.客户端请求dn1上传数据 dn1收到请求会继续调用dn2 dn2调用dn3 建立通道pipenlin6.三个节点dn1 ,2,3 逐级应答客户端7.客户端往dn1上传第一个block块 ...
2021-12-13 17:55:13 871
原创 spark sql对hive中数据进行处理和存储
首先创建一个scala工程叫做myhctest因为运行会产生很多日志信息 着你喔导入一个叫log4j的文件进行消除然后创建以下几个类和特质首先SaveTraittrait SaveTrait { def dfSave(indf:DataFrame, ctx:SparkSession, tableName:String):Unit}//构建方法 indf是传入的dataframe也就是传入你hive中的表 //因为spark sql是用的sparkSession中的所以后续要.
2021-12-13 17:23:56 1393
原创 linux 上oracle数据库创建
1.mkdir -p /opt/oracleTS/wjlchmod -R 777 /opt/oracleTS/wjl登陆oracle账户所在虚拟机,创建文件夹,并赋予权限2.使用sys超级用户登录oraclesu oracle # 切换成oracle账户sqlplus sys as sysdba # 使用sys账户登录oracle # 输入密码3.创建表空间create tablesapce hcspace datafile.
2021-12-10 17:50:04 657
原创 大数据环境脚本一键安装单机版 (持续更新中)
#!/bin/bash #安装必要的软件,持续填充setup_software(){ yum -y install vim yum -y install tree yum -y install lrzsz} #修改系统名称 同时修改hosts文件modify_sysname(){ hostnamectl set-hostname $1 #先获取hosts文件中对应的内容如果没发现对应的内容才能添加这个地址 cfg=`cat /etc/hosts | grep $2 | grep .
2021-12-10 11:23:12 1633
原创 胖瘦包pomx4.xml 配置文件
<build> <pluginManagement><!-- lock down plugins versions to avoid using Maven defaults (may be moved to parent pom) --> <plugins> <!-- clean lifecycle, see https://maven.apache.org/ref/current/maven-core/lif...
2021-12-10 11:13:33 164
原创 log4j.properties 去除工程中多余的日志文件信息
log4j.rootCategory=ERROR, consolelog4j.appender.console=org.apache.log4j.ConsoleAppenderlog4j.appender.console.target=System.errlog4j.appender.console.layout=org.apache.log4j.PatternLayoutlog4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:.
2021-12-10 11:07:15 746
原创 hive on spark
前置准备CentOS7、jdk1.8、hive-2.3.9、hadoop-2.7.7、spark-2.0.0-bin-hadoop2-without-hive首先先配置mavenIndex of /dist/maven/maven-3下载maven我下的是3.6.0版本至少要3.1.3以上才能编译同样解压到soft目录下配置环境变量spark底层用的还是scala代码 所以顺便装上了scala 后来好像用不到scala所以可以不用装vi /etc/profile.
2021-12-08 01:19:14 345
原创 mycat分库分表的安装与使用
日常生活中我们使用的大多数是mysql数据库 但是如果数据量比较庞大时一个mysql数据库可能无法存放这么多的数据 所以有时候我们可以使用采用mycat的分库分表结构来解决这个问题首先要安装mycat需要使用至少3台服务器这个我们创建3个虚拟机分别叫做mc01 mc02 mc03在mc01上安装java的jdk不需要安装mysql在mc02和mc03上安装mysql 不需要安装jdk这些我前边写的都有安装脚本全部安装完毕后打开mc01然后下载解压包Mycat-server-.
2021-12-07 16:52:57 1213
原创 scala Array数组命令介绍
Scala函数函数目录 思维导图(自定义) 函数具体用法 补充思维导图(自定义)函数目录函数具体用法方法名:++使用规范:</font>def ++[B >: A, That](that : scala.collection.GenTraversableOnce[B])(implicit bf : scala.collection.generic.CanBuildFrom[Repr, B, That]) : That = { /* compiled ..
2021-12-07 12:26:56 81
原创 sqoop实现hive数据到mysql
首先对应你的hive数据库查看你的表结构然后在mysql创建同样的表结构记住数据的位置要相同名称也要相同打开虚拟机然后输入命令//hive_userssqoop export \--connect jdbc:mysql://192.168.80.181:3306/personas \--username root \--password okok \--table hive_users \--export-dir '/hive110/warehouse/dwd_p...
2021-12-07 08:40:09 1593
原创 spring-boot框架实现数据库的增删改查
想对比与ssm框架 spring-boot也是基于ssm框架开发的 相比于ssm springboot书写起来更简单方便 ssm繁多的xml文件 在springboot中都可以被优化掉 通过大量的便签来实现多层结构之间的关联代码更简单易懂创建一个maven工程导入jar包<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi=".
2021-12-06 23:13:32 2324
原创 SSM框架书写
SSM(Spring+SpringMVC+MyBatis)框架集由Spring、MyBatis两个开源框架整合而成(SpringMVC是Spring中的部分内容),常作为数据源较简单的web项目的框架。首先依旧是创建一个maven工程这就是我创建工程的大致java类进入pom.xml开始导包 <dependency> <groupId>org.mybatis</groupId> <artifactId>my..
2021-12-06 21:58:59 553
原创 mybatis连接mysql
首先新建一个meven工程工程建好后打开pom.xml文件开始导包mybatis比较简单啊只需要导入<dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.38</version> </dependency> &
2021-12-06 19:05:54 428
原创 Centos7 上安装 Anaconda
还是首先去Anaconda 官网上下载Anaconda安装包 我这里下载的版本是Anaconda3-5.3.1-Linux-x86_64.sh如果你想在虚拟机上直接下载我也没啥意见wget https://repo.anaconda.com/archive/Anaconda3-2020.07-Linux-x86_64.sh安装Anaconda3-5.3.1-Linux-x86_64.sh 先不要运行 可能会报错首先先下载 yum -install -y bzip2然后再.
2021-12-02 23:27:00 595
原创 Centos7 Azkaban安装
1.首先去官网上下载Azkaban jar包只需要这3个安装包即可随便找一个目录下存放我的是放在opt目录下解压压缩包tar -zxvf azkaban-web-server-2.5.0.tar.gz tar -zxvf azkaban-sql-script-2.5.0.tar.gztar -zxvf azkaban-executor-server-2.5.0.tar.gz然后转移解压包到你想要的存放位置 我的是放在/opt/soft/目录下mv azkaban-2...
2021-12-02 23:01:27 518
原创 scala学习中 持续更新
1.简单实现scala的helloworld打印package mylession01//object 关键字:声明一个单例对象(伴生对象)object Helloworld {// main 方法 可以从外部调用的方法// def 方法名称(参数名称:参数类型):返回值类型={方法体} def main(args: Array[String]): Unit = { println("hello world") //打印helloworld }}2.scala伴生类.
2021-11-21 15:43:18 346
原创 hbase的简单使用
HBase Shell操作整理一、基本操作二、库的操作三、表的操作四、查询数据一、基本操作进入HBase客户端:hbase shell查看帮助命令:help查看当前数据库中有哪些表:list查看当前用户:whoami二、库的操作hbase里的数据库叫namespace,一个namespace下面有多个表查看命名空间:list_namespace创建命名空间:create_namespace ‘kb10’删除命名空间:drop_namespace ‘kb10’三、表的操作表操
2021-11-12 00:14:52 1287
原创 kafka实现读文件到hbase 并且实现hbase到hive上的映射
首先还是构建一个父类特质方法package kafkatohbaseimport org.apache.hadoop.hbase.client.Putimport org.apache.kafka.clients.consumer.{ConsumerRecord, ConsumerRecords}trait DataHandler { def transform(topic:String,records:ConsumerRecords[String,String]):Array[Put]
2021-11-12 00:13:26 2334
原创 streaming流实现kafka读写文件
第一步首先需要导入meven包 这是我的pom文件 缺什么导什么吧没啥说的<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4....
2021-11-10 22:28:24 1831
原创 flume读取文件到kafka
1.进入flume官网 www.org.apache.flume.com点击第三个2.使用kafka前需要先开启zookeeper3.编写配置文件读文件首先最好去头 写好配置文件user.channels = c1user.sources = s1user.sinks = k1user.sources.s1.type = spooldiruser.sources.s1.spoolDir = /opt/mydate/users/user.sources.s1....
2021-11-10 01:08:12 1831
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人