自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(65)
  • 收藏
  • 关注

原创 spark中job,stage,task

什么是Spark?Spark是处理大数据常用的计算引擎。Spark是一个用来实现快速而通用的集群计算的平台。扩展了广泛使用的MapReduce计算模型,而且高效地支持更多的计算模式,包括交互式查询和流处理。和MapReduce相比,spark支持内存计算,一般比MapReduce更高效。一般我们在提交spark任务的时候,都会去其UI界面查看任务运行状况。其中就有job、stage、task的一些执行进度展示。今天,就详细说明一下这些名词术语的含义。Jobspark中的数据都是抽象为RDD的,它支.

2022-02-08 14:12:48 1184

原创 hive侧视图

2022-01-12 11:39:23 1154

转载 kafka消费者参数

val prop= new Properties()prop.setProperty("bootstrap.servers", "localhost:9092")prop.setProperty("group.id", "consumer-group")prop.setProperty("key.deserializer","org.apache.kafka.common.serialization.StringDeserializer")prop.setProperty("value.deser

2022-01-05 11:12:40 183

原创 idea胖瘦包scala

<build> <plugins> <!-- 该插件用于将 Scala 代码编译成 class 文件 --> <plugin> <groupId>net.alchim31.maven</groupId> <artifactId>scala-maven-plugin</artifactI...

2022-01-04 13:44:15 123

原创 mysql给表jj新增一列伪列,序号自增

select tmp.*,@rank:=@rank+1 as rank from((select * from jj) tmp,(select @rank :=0) b)

2021-12-27 21:53:53 785

原创 union和union all

union会自动去重union不会去重

2021-12-24 09:52:44 1272

原创 大数据之MapReduce——一个分布式的离线并行计算框架

前言对于没有接触过大数据技术的人来说,听到大数据这个名词可能会感到很陌生,会很疑惑大数据是个什么东西。当年刚毕业的我就是这样。几年前刚毕业的时候,浏览各种招聘网站,难免会看到职位类型为大数据招聘信息,年轻的我就把它当作了某种高级程序员,也曾经对它有过憧憬,想着自己能不能成为一个大数据工程师呢。但是点进去看到各种不认识的编程语言后,当时连C语言都学的勉勉强强的我就望而却步了。直到今年四月份,大数据这个名词才重新闯入我的生活,当时来到北大青鸟咨询的时候,说是可以学云计算或者Java,还有大数据。当时大数

2021-12-17 22:20:01 3371

原创 HDFS参数调优

情景描述:开启Hadoop时候DN要向NN注册,那么NN开启多少个接客线程比较合适?NameNode有一个工作线程池,用来处理不同DataNode的并发心跳以及客户端并发的元数据操作,对于打击群或者有大量客户端的集群来说,通常需要增大参数dfs.namenode.handler.count的默认值是10有一个公式用来计算开启多少工作线程dfs.namenode.handler.count=20 * log以e为底 集群台数e.g.比如集群规模为8台,此参数设置为41,可以通过简单的pyt.

2021-12-04 10:29:11 1611

原创 yarn参数调优

情景描述:总共7台机器,每天几亿条数据,数据源->Flume->Kafka->HDFS->Hive面临问题:数据统计主要用HiveSQL,没有数据倾斜,小文件已经做了合并处理,开启了JVM宠用,而且IO没有阻塞,内存用了不到50%。但是还是跑的非常慢,而且数据量洪峰过来时,整个集群都会宕掉。基于这种情况有没有优化方案。解决办法NodeManager默认使用内存为8G,默认使用CPU核数为8核,如果不修改该参数,NodeManager在生产环境下最多只能使用8核8G内存,造成服.

2021-12-04 09:09:39 1330

原创 2021-12-01 15:48:44,657 INFO mapreduce.Job: map 0% reduce 0% 2021-12-01 15:48:53,757 INFO mapreduce

运行wordcount测试LZO压缩的时候报了如下错误2021-12-01 15:48:44,641 INFO mapreduce.Job: Job job_1638343302287_0001 running in uber mode : false2021-12-01 15:48:44,657 INFO mapreduce.Job: map 0% reduce 0%2021-12-01 15:48:53,757 INFO mapreduce.Job: Task Id : attempt_1638

2021-12-01 16:39:53 471

原创 项目经验之HADOOP支持LZO压缩配置

1.hadoop-lzo编译hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需要依赖hadoop和lzo进行编译,编译步骤如下Hadoop支持LZO0. 环境准备maven(下载安装,配置环境变量,修改sitting.xml加阿里云镜像)gcc-c++zlib-develautoconfautomakelibtool通过yum安装即可,yum -y install gcc-c++ lzo-devel zlib-deve

2021-12-01 16:28:19 372

原创 ERROR: Attempting to operate on hdfs namenode as root ERROR: but there is no HDFS_NAMENODE_USER defi

某次打开很久不用的虚拟机,使用root账号登陆hdfs时候报了以下错误[root@hadoop102 hadoop]# start-dfs.sh Starting namenodes on [hadoop102]ERROR: Attempting to operate on hdfs namenode as rootERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.Starting datanodesE.

2021-12-01 14:52:05 3294 2

原创 hadoop节点间数据均衡

开启数据均衡命令start-balancer.sh -threshold 10对于参数10,代表的是集群中各个节点的磁盘利用率相差不超过10%,可根据实际情况进行调正停止数据均衡命令均衡结束后需要将服务关掉,否则占用资源stop-balancer.sh注意:由于HDFS需要启动单独的Rebalance Server 来执行Rebalance操作,所以尽量不要在NameNode 上执行start-balancer.sh,而是找一台比较空闲的机器...

2021-12-01 11:53:24 551

原创 linux多磁盘如何高效使用

linux使用了多块磁盘,如何配置可以使每块磁盘都高效使用在hdfs-site.xml文件中配置多目录,注意新挂载磁盘的访问权限问题HDFS的DataNode节点保存数据的路径由 dfs.datanode.data.dir 参数决定,其默认值为 file://${hadoop.tmp.dir}/dfs/data ,若服务器有多个磁盘,必须对该参数进行修改。使用 df -h 查看服务器磁盘情况,如服务器磁盘有四个,则对该参数修改为如下的值:<property> <name.

2021-12-01 11:34:09 350

原创 Hive汇总

load宏函数临时表创表create table 表名 as select abc from 表名插入insert overwrite table 表名 select abc from 表名

2021-09-29 17:44:35 83

原创 常用数据库驱动以及url

Oracle驱动程序包名ojdbc6.jar驱动类的名字driverClassNameoracle.jdbc.driver.OracleDriverJDBC URLjdbc:oracle:thin:@192.168.100.151:1521:orclmysql驱动程序包mysql-connector-java-5.1.38.jar驱动类名字driverClassNamecom.MySQL.jdbc.DriverJDBC URLjdbc:mysql:

2021-09-28 09:24:19 150

原创 记录一次练习

练习内容1.安装centosvi /etc/sysconfig/network-scripts/ifcfg-ens33 修改网络配置文件BOOTPROTO=staticIPADDR=192.168.100.128~200 虚拟机的IP地址,最后一位在128到200之间NETMASK=255.255.255.0 子网掩码GATEWAY=192.168.100.2 默认网关 安装CentOS的时候在网络界面有,安装的

2021-09-28 07:28:19 112

原创 数据库结构查看

Mysql查看所有数据库show databases;切换进一个数据库use mydemo;查看当前数据库下所有的表show tables;查看某个表的结构desc userinfos;Oracle实例->表空间和用户->表查看所有表空间select name from v$tablespace;查看表空间下面所有的表select TABLE_NAME from dba_tables where TABLESPACE_NAME='MY

2021-09-25 12:05:00 822

原创 SSM流程

新建maven-webapp项目添加依赖Mybatis Spring整合Mybatis和Spring的框架<dependency> <groupId>org.mybatis</groupId> <artifactId>mybatis-spring</artifactId> <version>1.3.2</version></dependency>Mybatis<de.

2021-09-25 08:26:43 148

原创 Hive数据类型、数据库和表操作、数据分区

1.hadoop hive zeppelin启停脚本my_start(){ if [ $1 == "start" ]; then # start hadoop sh /opt/soft/hadoop260/sbin/start-dfs.sh sh /opt/soft/hadoop260/sbin/start-yarn.sh # start hive 后台启动 nohup /opt/soft/hive110/bin/hive --service hiveserver2 &

2021-09-17 21:57:26 236

原创 正则表达式

正则表达式描述了一种字符串匹配的模式,也称规则表达式对字符串做这四件事 : 搜索|替换|分割|匹配 首选正则\d 一个任意数字 0~9\D 一个非数字 除了0~9\w 一个字母 a~z|A~Z|0~9\W 一个非字母\s 一个空格\S 一个非空格[] 字符选择器 只匹配一个“字符” [a-c]:a到c之间任意一个字符 [ac]:a和c之间任意一个字符{} 范围修饰符(修饰前面一个符号出现了多少次) \d{1,2}:最多出现2个,最少出现1个() 字符串选择器

2021-08-23 20:55:21 59

原创 centos以及mysql安装

安装CentOSvi /etc/sysconfig/network-scripts/ifcfg-ens33 修改网络配置文件BOOTPROTO=staticIPADDR=192.168.100.128~200 虚拟机的IP地址,最后一位在128到200之间NETMASK=255.255.255.0 子网掩码GATEWAY=192.168.100.2 默认网关 安装CentOS的时候在网络界面有,安装的时候记录下来DNS1=114.114.114.114 DNS 是域名系统(Sys

2021-08-23 20:54:55 80

原创 JAVA线程

生产者和消费者涉及到线程通讯wait()除了让当前线程等待,还会释放当前锁wait() 让当前线程等待在当前状态,下次被notify()的时候,从当前状态(当前代码)继续往下执行​notify()死锁AB...

2021-08-23 20:54:08 52

原创 JAVA反射

1.获得类型信息2.使用类型信息建造对象3.利用类型信息对对象的属性查询或修改4.利用类型信息调用类的方法并且执行

2021-08-23 20:53:34 66

原创 IDEA初始化

快捷键alt + shift + z: surround withF4: Hierarchyalt + shift + p: implement methodsIDEA 初始化idea.exe.vmoptions修改Xms为4092midea.properties百度修改idea64.exe.vmoptions修改Xms为4092m

2021-08-23 20:52:38 92

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除