进阶的橙汁糖-CSDN博客

原创 Hive基本操作

一、Hive创建数据库与数据表1.1.数据库相关操作1.1.1.创建数据库语法：create database if not exists 数据库名;示例：create database if not exists mytestdatabase;1.1.2.创建数据库并指定HDFS存储路径语法：create database if not exists 数据库名 location 'HDS存储路径';示例：create database if not

2022-02-10 20:07:15 5837 1

原创大数据-hive-安装部署-小记

我们在此处选择三台机器作为我们hive的安装机器1.6.1 安装1.6.1.1、derby版hive直接使用：1、解压hivecd /export/softwarestar -zxvf hive-1.1.0-cdh5.14.0.tar.gz -C ../servers/2、直接启动bin/hivecd ../servers/cd hive-1.1.0-cdh5.14.0/bin/hivehive> create database mytest;..

2021-08-24 17:26:34 210

原创 Linux-内存管理问题-详解

/usr/bin/sync && echo 3 > /proc/sys/vm/drop_cachesfree命令：[root@server~]# free -mtotalusedfreesharedbufferscachedMem:2491638601094-/+buffers/cache:58191Swap:5110511其中：total 内存总数used 已经使用的内存数free 空闲的内存数shared ...

2021-08-24 09:53:00 296

原创 azkaban问题-任务在azkaban的Scheduling正在调度中板块里显示的是正处于调度中的一个状态，但是到了调度的时间却没有任务执行

任务在azkaban的Scheduling正在调度中板块里显示的是正处于调度中的一个状态，但是到了调度的时间却没有任务执行检查任务的调度历史解决思路：进入Execting查看是否有相同任务被卡死，（卡死的任务状态在Status栏中显示为空），把卡死的任务状态kill掉，如果有kill不掉的任务，切换用户之后再试紧接着，按下面操作执行点击后会有弹框显示，如果说此时正有任务在运行，就再去Excuting中把卡死的任务kill掉，然后再回到这里点击Excut...

2021-08-24 09:45:44 761

原创 azkaban-h2数据库问题

问题：Azkaban上调度的所有任务无法打开，web界面中点击所有任务的open job都显示如下界面：另外在yarn的web界面查看调度的资源情况：相比之前正常情况下，内存的使用率小了很多便可初步判断，azkaban上调度的任务应该都停止了没有再执行情况分析：Azkaban服务没挂Azkaban上调度的任务无法显示Yarn上调度的资源使用率相比正常情况下小了很多结论：Azkaban存储调度任务的数据库出现了问题问题解决：进入azk

2021-08-24 09:41:30 488

原创 Linux-命令-yum包管理命令-小记

yum repolist enabled 显示可⽤的源仓库 yum search pkg_name 搜索软件包 yum install pkg_name 下载并安装软件包 yum install --downloadonly pkg_name 只下载不安装 yum list 显示所有程序包 yum list installed 查看当前系统已安装包 yum list updates 查看可以更新的包列表 yum check-update

2021-08-24 09:34:03 340

原创 Linux-命令-DPKG包管理命令-小记

dpkg -c xxx.deb 列出deb包的内容 dpkg -i xxx.deb 安装/更新deb包 dpkg -r pkg_name 移除deb包 dpkg -P pkg_name 移除deb包(不保留配置) dpkg -l 查看系统中已安装deb包 dpkg -l pkg_name 显示包的⼤致信息 dpkg -L pkg_name 查看deb包安装的⽂件 dpkg -s pkg_name 查看包的详细信息 dpkg –u

2021-08-24 09:33:51 387

原创 Linux-命令-APT软件⼯具-小记

apt-cache search pkg_name 搜索程序包 apt-cache show pkg_name 获取包的概览信息 apt-get install pkg_name 安装/升级软件包 apt-get purge pkg_name 卸载软件（包括配置） apt-get remove pkg_name 卸载软件（不包括配置） apt-get update 更新包索引信息 apt-get upgrade 更新已安装软件包 apt-

2021-08-24 09:32:36 80

原创 Linux-命令-rpm包管理命令-小记

rpm -qa 查看已安装的rpm包 rpm -q pkg_name 查询某个rpm包 rpm -q --whatprovides xxx 显示xxx功能是由哪个包提供的 rpm -q --whatrequires xxx 显示xxx功能被哪个程序包依赖的 rpm -q --changelog xxx 显示xxx包的更改记录 rpm -qi pkg_name 查看⼀个包的详细信息 rpm -qd pkg_name 查询⼀个包所提供的⽂档

2021-08-17 23:21:30 613

原创 Linux-命令-打包和解压-小记

zipxxx.zip file 压缩⾄zip包 zip -r xxx.zip file1 file2 dir1 将多个⽂件+⽬录压成zip包 unzip xxx.zip 解压zip包 tar -cvf xxx.tar file 创建⾮压缩tar包 tar -cvf xxx.tar file1 file2 dir1 将多个⽂件+⽬录打tar包 tar -tf xxx.tar 查看tar包的内容 tar -xvf xxx.tar 解压tar包.

2021-08-17 23:16:46 114

原创 Linux-命令-文件查看和处理-小记

cat file1 查看⽂件内容 cat -n file1 查看内容并标示⾏数 cat xxx.txt 查看xxx.txt文件内容 tac file1 从最后⼀⾏开始反看⽂件内容 more file1 查看⼀个⻓⽂件的内容 less file1 类似more命令，但允许反向操作 head -2 file1 查看⽂件前两⾏ tail -2 file1 查看⽂件后两⾏ tail -f /log/msg 实时查看添加到⽂件中的内

2021-08-17 23:13:03 297

原创 Linux-命令-文件和目录操作-小记

cd <⽬录名> 进⼊某个⽬录 cd .. 回上级⽬录 cd ../.. 回上两级⽬录 cd 进个⼈主⽬录 cd - 回上⼀步所在⽬录 pwd 显示当前路径 ls 查看⽂件⽬录列表 ls -F 查看⽬录中内容（显示是⽂件还是⽬录） ls -l 查看⽂件和⽬录的详情列表 ls -a 查看隐藏⽂件 ls -lh 查看⽂件和⽬录的详情列表（增强⽂件⼤⼩易读性） ls -lSr 查看⽂件和

2021-08-17 23:05:56 107

原创 Linux-命令-常见系统服务命令-小记

chkconfig --list 列出系统服务 service <服务名> status 查看某个服务 service <服务名> start 启动某个服务 service <服务名> stop 终⽌某个服务 service <服务名> restart 重启某个服务 systemctl status <服务名> 查看某个服务 systemctl start <服务名> .

2021-08-17 22:48:34 97

原创 Linux-命令-网络和进程管理-小记

ifconfig 查看网络接口属性 ifconfig eth0 查看某网卡的配置 route -n 查看路由表 netstat -lntp 查看所有监听端口 netstat -antp 查看已经建立的tcp连接 netstat -lutp 查看TCP/UDP的状态信息 ifup eth0 启用eth0网络设备 ifdown eth0 禁用eth0网络设备 iptables -L 查看iptables规则 ifconfi

2021-08-17 22:42:48 122

原创 Linux-命令-用户和用户组-小记

useradd codesheep 创建用户 userdel -r codesheep 删除用户 usermod -g group_name user_name 修改用户的组 usermod -aG group_name user_name 将用户添加到组 usermod -s /bin/ksh -d /home/codepig –g dev codesheep 修改⽤户codesheep的登录Shell、主⽬录以及⽤户组 groups tes

2021-08-17 22:32:17 154

原创 Linux-命令-磁盘和分区-小记

fdisk -l 查看所有磁盘分区 swapon -s 查看所有交换分区 df -h 查看磁盘使用情况及挂载点 df -hl 同上 du -sh /dir 查看指定某个目录的大小 du -sk | sort -rn 从高到低依次显示文件和目录大小 mount -t ntfs /dev/sdc1 /mnt/usbhd1 指定文件系统类型挂载（如ntfs） mount -o loop xxx.iso /mnt/cdrom 挂载iso文件

2021-08-17 22:24:08 118

原创 Linux-命令-关机/重启/注销-小记

shutdown -h -now 立刻关机 shutdown -h 30 30分钟后关机 shutdown -h 11:00 定时关机11:00关机 shutdown -h +10 预定时间关机（10分钟后） shutdown -c 取消定时关机 shutdown -r now 重启 shutdown -r 11:00 定时重启 reboot 重启 init 6 重启 init 0 ...

2021-08-17 20:13:50 99

原创 Java-SpringBoot-配置文件application.properties与application.yml之间的区别-小记

默认：application.properties：创建一个spring boot项目，IDEA会自动创建该配置文件application.yml：非默认，需手动创建格式：application.properties：通过‘.’来递进连接；通过‘=’来赋值；结构上没有分层，给人一种比较直接的感觉；例：application.yml：通过‘换行和缩进’来递进连接（缩进时不允许使用Tab键，只允许使用空格，空格数目不重要，相同层级的元素左侧对齐即可，..

2021-07-15 10:13:50 439

原创 Java-maven-查看、获取某个依赖的最新版本-方法步骤

例：1.确定要查询的依赖2.百度 ‘依赖名 Maven’点进上面网页，进入以下网页，点击Search找到最新，点进去复制粘贴

2021-07-13 18:13:18 1639 2

原创 Java-后端-@Data、@AllArgsConstructor、@NoArgsConstructor作用-小记

@Data：封装get 、set方法@AllArgsConstructor：封装全参方法@NoArgsConstructor：封装无参方法以上三个注解一般用于实体类例：

2021-07-13 14:15:07 352

原创 Java-后端-分层架构-浅谈

Controller实现层：该层主要是编写Controller实现类，作为请求的入口，负责前后端的交互；Service业务层：该层主要是编写Service接口和ServiceImpl实现类，编写Service接口的作用在于可实现接口与实现类的解耦，为什么要实现接口与实现类的解耦？1.当编写业务层接口的人和编写业务层实现类的人不是同一个人时，可实现互不影响2.代码的调用先于代码的实现，所以可以先写好接口，用于Controller层的调用，后续再到实现类去实现这个接口，编写业务逻辑

2021-07-08 14:51:52 2469

原创大数据-Presto-浅谈

Presto是什么？：分布式SQL查询引擎Presto的特点？1.基于内存的计算，减少了不必要的I/O操作，提高了查询速度2.可连接多个数据源（如MySQL，Oracle，Kafka等等），实现多数据源关联查询Presto的应用场景？1.加速hive的查询2.为不具备SQL查询功能的存储工具提供SQL查询3.构建虚拟的统一数据仓库，实现多数据源关联查询4.作为数据迁移和ETL工具5.基于数据快照的实时计算6.数据平台的临时查询7.作为BI报表引擎8.元数据

2021-07-07 19:03:07 141

原创大数据-spark-DAG划分Stage-详解

●为什么要划分Stage? --并行计算一个复杂的业务逻辑如果有shuffle，那么就意味着前面阶段产生结果后，才能执行下一个阶段，即下一个阶段的计算要依赖上一个阶段的数据。那么我们按照shuffle进行划分(也就是按照宽依赖就行划分)，就可以将一个DAG划分成多个Stage/阶段，在同一个Stage中，会有多个算子操作，可以形成一个pipeline流水线，流水线内的多个平行的分区可以并行执行●如何划分DAG的stage对于窄依赖，partition的转换处理在stage中完成计算，不划分(..

2021-03-24 17:03:52 581 1

原创大数据-spark-宽窄依赖-原理图解+浅谈

窄依赖：一个RDD中的一个 Partition最多被一个子 Partition所依赖（一个父亲有一个儿子）宽依赖：发生shuffle时，一定会产生宽依赖，宽依赖是一个RDD中的一个Partition被多个子Partition所依赖（一个父亲多有儿子），也就是说每一个父RDD的Partition中的数据，都可能传输一部分到下一个RDD的多个partition中，此时一定会发生shuffle...

2021-03-24 16:43:11 270

原创大数据-spark-Standby Masters with ZooKeeper-原理图解

可用于生产环境

2021-03-23 10:44:45 113

转载大数据-分析处理工具-浅谈

大数据分析处理的工具大数据就是在各种类型的数据中快速获得有有效有价值的信息的技术，大数据领域现今已经出现大量的便于操作的新型技术，他们会是大数据采集，处理，存储和信息展现的最有效的工具。1.大数据接入大数据接入已有数据接入，实时数据接入，消息记录数据接入，文件，文字，图片，视频等数据接入。大数据接入技术Kafka，ActiveMQ，ZeroMQ，Flume，Sqoop，Socket（Mina，Netty），ftp/sftp2.大数据存储大数据存储结构化数据存储，半..

2020-07-22 22:25:59 226

转载 Java-mybatis-Caused by: java.lang.NumberFormatException: For input string-bug总结

mybatis 报错：Caused by: java.lang.NumberFormatException: For input string<select id="sltTreatment" resultType="com.vitaminmd.sunny.core.bo.Treatment"> select * from treatment where TRUE <if test="index == 'A'"&g.

2020-07-22 20:04:34 1073

原创大数据-hive-本地模式的好处-小记

在数据量较小时，提高查询效率原因：查询数据的程序运行在提交查询语句的节点上运行（不提交到集群上运行）

2019-12-09 22:10:24 731

原创大数据-hive-自定义函数类型-小记

1.UDF(User-Defined-Function) 一进一出2.UDAF(User- Defined Aggregation Funcation) 聚集函数，多进一出。Count/max/min3.UDTF(User-Defined Table-Generating Functions) 一进多出，如lateral view explore)...

2019-12-09 22:02:05 303

原创大数据-hive-常用数据存储格式、压缩格式-小记

在实际的项目开发当中，hive表的数据存储格式一般选择：orc或parquet。压缩方式一般选择snappy

2019-12-07 20:49:24 237

原创大数据-hive-hiveUDF方法名-小记

evaluate

2019-12-07 20:48:04 147

原创大数据-hive-声明参数类型、优先级-小记

配置文件(配置文件参数)hive -hiveconf (命令行参数)在hive的shell窗口set(参数声明)

2019-12-07 20:47:00 581

原创大数据-hive-hive -e/-f/-hiveconf-小记

hive -e 后面的参数是‘命令行’hive -f 后面的参数是文件hive -hiveconf 设置hive运行时候的参数配置

2019-12-07 20:46:19 2283

原创大数据-hive-distribute by+sort by 与Cluster by的联系、区别-小记

cluster by 的结果有限制，只能正序排列distribute by+sort by 可根据需求进行排序

2019-12-07 20:45:32 326

原创大数据-hive-Cluster by的适用场景-小记

要根据某个字段进行分区，并且以这个字段进行排序时使用Cluster by

2019-12-07 20:44:34 412

原创大数据-hive-distribute by使用场景，常与哪个联合使用-小记

按照指定的字段对数据进行分区时使用通常和sort by联合使用，Hive要求distribute by语句要写在sort by语句之前

2019-12-07 20:43:47 736

原创大数据-hive-where与having的区别-小记

1.where是作用在表的所有字段，having是作用在查询的字段上2.在where子句中不能使用聚组函数，在having语句中可以使用聚组函数

2019-12-07 20:42:37 1461

原创大数据-Flume-定义、内部组成、安装部署-小记

一、定义一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统flume可以收集的数据：socket数据包，文件，文件夹，kafka等flume可以收集的数据：hdfs、hive、hbase、kafka举例说明：扫地机器人，收快递的人，吸尘器，扫码枪二、内部组成1.source：与数据源对接，用于采集，收集收据2.channel：用于数据传输（在flumeAgent内部）3.s...

2019-12-07 20:28:40 108

原创大数据-hive-order by与sort by的区别-小记

order by 是全局排序，一个MapReducesort by 是局部分区内部进行排序

2019-12-07 20:15:18 272

原创大数据-hive-数据导出表的方式-小记

1.将查询的结果导出到本地insert overwrite local directory ‘本地路径’ select 指定字段 from 表名;2.将查询的结果格式化导出到本地insert overwrite local directory ‘/export/servers/exporthive’ row format delimited fields terminated by ‘\t’...

2019-12-05 20:06:43 178

空空如也

空空如也