宝罗-CSDN博客

原创 Teradata数据库使用笔记（1）--Teradata安装

Teradata数据库使用笔记（1）--Teradata安装_肆尾葱的博客-CSDN博客_teradata数据库安装Teradata使用笔记（2）--数据库操作_肆尾葱的博客-CSDN博客_teradata使用教程

2022-02-28 11:21:56 1269

原创 gaussDB数据库常用操作命令

GaussDB命令行连接1.1ssh连接主机，IP：192.168.28.178，用户名：root，密码：Huawei@1231.2 切换至bin目录，cd /home/gaussdba/app/bin/1.3 切换用户为gaussdba，su gaussdba1.4 连接gaussDb，gsql -d postgres -p 5432基本操作命令...

2022-02-28 10:59:51 18763 1

1、TextFileTextFile文件不支持块压缩，默认格式，数据不做压缩，磁盘开销大，数据解析开销大。这边不做深入介绍。2、RCFileRecord Columnar的缩写。是Hadoop中第一个列文件格式。能够很好的压缩和快速的查询性能，但是不支持模式演进。通常写操作比较慢，比非列形式的文件格式需要更多的内存空间和计算量。RCFile是一种行列存储相结合的存储方式。首先，其将数据按行分块，保证同一个record在一个块上，避免读一个记录需要读取多个block。其次，块数据列式存

2022-02-07 23:40:48 418

原创 kafka参数优化

(1）Broker参数配置（server.properties）1.网络和io操作线程配置优化# broker处理消息的最大线程数（默认为3）num.network.threads=cpu核数+1# broker处理磁盘IO的线程数num.io.threads=cpu核数*22、log数据文件刷盘策略# 每当producer写入10000条消息时，刷数据到磁盘log.flush.interval.messages=10000# 每间隔1秒钟时间，刷数据到磁盘lo

2022-02-07 19:10:42 456

原创 linux常用命令

arch 显示机器的处理器架构 (1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示CPU info的信息 cat /proc/interrupts 显示中断 cat /proc/meminfo 校验.

2022-02-07 10:07:43 85

原创使用canal保持mysql与kafka数据同步

1.下载canelhttps://github.com/alibaba/canal/releases2.开启MySQL的binlog配置如果你忘记了my.cnf的路径find / -name my.cnfcd /etcvi my.cnf#打开my.cnf（window my.ini）在【mysqld】块中添加 server-id=1log-bin=mysql-bin binlog_format=row binlog-do-db=你数据库的名字多个用逗号隔开(这里是

2022-01-18 20:51:32 2199

原创 flume配置文件详解

a1.sources = r1a1.sinks = k1a1.channels = c1##注意：不能往监控目中重复丢同名文件a1.sources.r1.type = spooldir (cdh) /exec(cdh) /taildir(apache1.7版本之后,监控文件和目录,断点续查)a1.sources.r1.spoolDir = /root/logs2 //监控的文件夹a1.sources.r1.fileHeader = truea1.sinks.k1.type = hdfs.

2021-12-30 10:23:34 1588

原创 Flink入门到清明（持续上香中）

和其他所有的计算框架一样，flink也有一些基础的开发步骤以及基础，核心的API，从开发步骤的角度来讲，主要分为四大部分1.EnvironmentFlink Job在提交执行计算时，需要首先建立和Flink框架之间的联系，也就指的是当前的flink运行环境，只有获取了环境信息，才能将task调度到不同的taskManager执行。而这个环境对象的获取方式相对比较简单2.SourceFlink框架可以从不同的来源获取数据，将数据提交给框架进行处理, 我们将获取数据的来源称之为数据源.3.T

2021-12-29 10:36:12 1144

原创 Mongodb安装

1. 下载Mongodbhttps://www.mongodb.com/try/download/community这里我选择的版本是3.6.23下载完成后上传到虚拟机2.解压并移动到指定目录tar -zxf mongodb-linux-x86_64-rhel70-3.6.23.tgzmv mongodb-linux-x86_64-rhel70-3.6.23 soft/mongodb3.配置环境变量并测试#mongodb 修改/etc/profileexport M

2021-12-29 10:35:23 727

原创安装FastDFS图片服务器

1.前置工作下载安装包#到 https://github.com/happyfish100 下载fastdfs-master、libfastcommon-master、fastdfs-nginx-module-master#到 http://nginx.org/en/download.html 下载 nginx-1.14.2.tar.gz2.前置安装运行库yum install -y unzip zip perl gcc-c++yum -y install zlib ..

2021-12-23 23:53:01 1501

原创 hive分区表

首先有这样的一张csv数据表名称叫做test.csv将test.csv上传至hdfs 然后在zeppelin中创建一张分区表create table exam.userbehavior_partitioned( user_id string, item_id string, category_id string, behavior_type string, time string ) partitioned by (dt st.

2021-12-21 20:22:02 1134

原创 hive 数据仓库跟mysql数据库的区别

1、查询语言不同：hive是hql语言，mysql是sql语句；2、数据存储位置不同：hive是把数据存储在hdfs上，而mysql数据是存储在自己的系统中；3、数据格式：hive数据格式可以用户自定义，mysql有自己的系统定义格式；4、数据更新：hive不支持数据更新，只可以读，不可以写，而sql支持数据更新；5、索引：hive没有索引，因此查询数据的时候是通过mapreduce很暴力的把数据都查询一遍，也造成了hive查询数据速度很慢的原因，而mysql有索引；6、延迟性：hive

2021-12-21 20:08:12 1227

原创 spark-hdfs-hive-hbase

打开虚拟机首先确保虚拟机上安装了hadoop spark hive hbase然后依次启动启动hbase 首先先确保先启动zekooperhadoop启动命令 start-all.shhive 启动 hive --service hiveserver2 & 后台启动不想后台的话就不用加&zkserve.sh start 启动zekooperhbase start-hbase.shhive --service metastroe 启动spark...

2021-12-21 08:38:49 1714 2

原创 mysql 查询分类前几名

在oracle 中我们可以利用窗口函数row nomber 来查查询分组前几名但是在mysql中式没有窗口函数的那么mysql中如何实现分类排名查询呢这里我就写一个简单的例子create table student( id varchar(20),-- 编号 class varchar(20),-- 年级 score int-- 分数);delete from student;insert student values('1','一年级',82);insert student v

2021-12-16 12:26:06 964

原创 mysql 练习题加进阶练习

DROP DATABASE IF EXISTS exps;CREATE DATABASE exps;USE exps;CREATE TABLE s1_student( sno VARCHAR(10) PRIMARY KEY, sname VARCHAR(30), sbirthday VARCHAR(30), ssex VARCHAR(10), sclass VARCHAR(10));CREATE TABLE s1_teacher( tno VARC.

2021-12-16 12:09:20 801

原创 FineReport 的使用（持续更新中）

1. 概述报表是以表格、图表的形式来动态展示数据，企业通过报表进行数据分析，进而用于辅助经营管理决策。FineReport 就是一款用于报表制作，分析和展示的工具。2. 产品定位FineReport 是帆软自主研发的企业级 Web 报表工具，秉持零编码的理念，易学易用，功能强大，经过多年的打磨，已经成长为中国报表软件领导品牌。FineReport 通过简单的拖拽操作便可制作中国式复杂报表，轻松实现报表的多样化展示、交互分析、数据录入、权限管理、定时调度、打印输出、门户管理和移动应用等需.

2021-12-14 23:27:12 1372

原创 mysql 优化之索引视图和索引为何未调用

如何判断语句运行速度的快慢呢执行计划在mysql中我们可以通过explain显示了mysql如何使用索引来处理select语句以及连接表。可以帮助选择更好的索引和写出更优化的查询语句我们在查询mysql语句时经常会出现查询速度极其缓慢的状态这种情况可能会有多种情况构成比如sql语句书写不规范函数运用不规范等等这个需要你去长久的书写练习今天要说的mysql 语句是从mysql 索引和视图方面进行语句调优什么是索引索引有什么用这个不需要多说百度都有哈索引也就是提前把sql语.

2021-12-14 23:14:52 175

原创 java简单实现wordcount代码

Mapperpublic class workcountmapper extends Mapper<LongWritable, Text,Text, IntWritable> { Text outk =new Text(); IntWritable outv=new IntWritable(1); @Override protected void map(LongWritable key, Text value, Context context) thr.

2021-12-13 23:58:10 875

原创 MapReduce工作流程

1. client 客户端有一个文件 200m2. 客户端subnmit（）之前对文件进行切片 hadoop默认切片为128m 所以会切成2片3.客户端提交信息 job.split wc.jar job.xml 如果是本地模式没有jar包4.提交信息给yarn yarn启动 MRAppMaster 进程计算出MapTask数量5.当实例化一个maptask后，创建TextInputFormat，调用里面的RecoreReader方法将切片读取封装成（k,v）传送给Mapper6...

2021-12-13 23:41:11 1079

原创 java 经典循环练习

public class Test { @org.junit.Test public void test_1(){ //求水仙花数 for (int i = 100; i <= 999; i++) { int a = i/100; int b = (i - a*100)/10; int c = i%10; if (i == a*a*a + b*b*b.

2021-12-13 21:39:27 142

原创 hdfs读写流程

1.首先上传一个文件client 如果是200m的话 blk1 blk2两个切片文件2.向namenode发送数据请求判断是否重名判断成功然后上传文件3.确定可以上传我要上传blk1到那几个datanode上4.namenode返回三个datanodedn1 dn2 dn35.客户端请求dn1上传数据 dn1收到请求会继续调用dn2 dn2调用dn3 建立通道pipenlin6.三个节点dn1 ,2,3 逐级应答客户端7.客户端往dn1上传第一个block块 ...

2021-12-13 17:55:13 871

原创 spark sql对hive中数据进行处理和存储

首先创建一个scala工程叫做myhctest因为运行会产生很多日志信息着你喔导入一个叫log4j的文件进行消除然后创建以下几个类和特质首先SaveTraittrait SaveTrait { def dfSave(indf:DataFrame, ctx:SparkSession, tableName:String):Unit}//构建方法 indf是传入的dataframe也就是传入你hive中的表 //因为spark sql是用的sparkSession中的所以后续要.

2021-12-13 17:23:56 1393

原创 linux 上oracle数据库创建

1.mkdir -p /opt/oracleTS/wjlchmod -R 777 /opt/oracleTS/wjl登陆oracle账户所在虚拟机，创建文件夹,并赋予权限2.使用sys超级用户登录oraclesu oracle # 切换成oracle账户sqlplus sys as sysdba # 使用sys账户登录oracle # 输入密码3.创建表空间create tablesapce hcspace datafile.

2021-12-10 17:50:04 657

原创大数据环境脚本一键安装单机版（持续更新中）

#!/bin/bash #安装必要的软件，持续填充setup_software(){ yum -y install vim yum -y install tree yum -y install lrzsz} #修改系统名称同时修改hosts文件modify_sysname(){ hostnamectl set-hostname $1 #先获取hosts文件中对应的内容如果没发现对应的内容才能添加这个地址 cfg=`cat /etc/hosts | grep $2 | grep .

2021-12-10 11:23:12 1633

原创胖瘦包pomx4.xml 配置文件

<build> <pluginManagement> <plugins> <!-- clean lifecycle, see https://maven.apache.org/ref/current/maven-core/lif...

2021-12-10 11:13:33 164

原创 log4j.properties 去除工程中多余的日志文件信息

log4j.rootCategory=ERROR, consolelog4j.appender.console=org.apache.log4j.ConsoleAppenderlog4j.appender.console.target=System.errlog4j.appender.console.layout=org.apache.log4j.PatternLayoutlog4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:.

2021-12-10 11:07:15 746

空空如也

空空如也