- 博客(65)
- 收藏
- 关注
原创 spark中job,stage,task
什么是Spark?Spark是处理大数据常用的计算引擎。Spark是一个用来实现快速而通用的集群计算的平台。扩展了广泛使用的MapReduce计算模型,而且高效地支持更多的计算模式,包括交互式查询和流处理。和MapReduce相比,spark支持内存计算,一般比MapReduce更高效。一般我们在提交spark任务的时候,都会去其UI界面查看任务运行状况。其中就有job、stage、task的一些执行进度展示。今天,就详细说明一下这些名词术语的含义。Jobspark中的数据都是抽象为RDD的,它支.
2022-02-08 14:12:48
1184
转载 kafka消费者参数
val prop= new Properties()prop.setProperty("bootstrap.servers", "localhost:9092")prop.setProperty("group.id", "consumer-group")prop.setProperty("key.deserializer","org.apache.kafka.common.serialization.StringDeserializer")prop.setProperty("value.deser
2022-01-05 11:12:40
183
原创 idea胖瘦包scala
<build> <plugins> <!-- 该插件用于将 Scala 代码编译成 class 文件 --> <plugin> <groupId>net.alchim31.maven</groupId> <artifactId>scala-maven-plugin</artifactI...
2022-01-04 13:44:15
123
原创 mysql给表jj新增一列伪列,序号自增
select tmp.*,@rank:=@rank+1 as rank from((select * from jj) tmp,(select @rank :=0) b)
2021-12-27 21:53:53
785
原创 大数据之MapReduce——一个分布式的离线并行计算框架
前言对于没有接触过大数据技术的人来说,听到大数据这个名词可能会感到很陌生,会很疑惑大数据是个什么东西。当年刚毕业的我就是这样。几年前刚毕业的时候,浏览各种招聘网站,难免会看到职位类型为大数据招聘信息,年轻的我就把它当作了某种高级程序员,也曾经对它有过憧憬,想着自己能不能成为一个大数据工程师呢。但是点进去看到各种不认识的编程语言后,当时连C语言都学的勉勉强强的我就望而却步了。直到今年四月份,大数据这个名词才重新闯入我的生活,当时来到北大青鸟咨询的时候,说是可以学云计算或者Java,还有大数据。当时大数
2021-12-17 22:20:01
3371
原创 HDFS参数调优
情景描述:开启Hadoop时候DN要向NN注册,那么NN开启多少个接客线程比较合适?NameNode有一个工作线程池,用来处理不同DataNode的并发心跳以及客户端并发的元数据操作,对于打击群或者有大量客户端的集群来说,通常需要增大参数dfs.namenode.handler.count的默认值是10有一个公式用来计算开启多少工作线程dfs.namenode.handler.count=20 * log以e为底 集群台数e.g.比如集群规模为8台,此参数设置为41,可以通过简单的pyt.
2021-12-04 10:29:11
1611
原创 yarn参数调优
情景描述:总共7台机器,每天几亿条数据,数据源->Flume->Kafka->HDFS->Hive面临问题:数据统计主要用HiveSQL,没有数据倾斜,小文件已经做了合并处理,开启了JVM宠用,而且IO没有阻塞,内存用了不到50%。但是还是跑的非常慢,而且数据量洪峰过来时,整个集群都会宕掉。基于这种情况有没有优化方案。解决办法NodeManager默认使用内存为8G,默认使用CPU核数为8核,如果不修改该参数,NodeManager在生产环境下最多只能使用8核8G内存,造成服.
2021-12-04 09:09:39
1330
原创 2021-12-01 15:48:44,657 INFO mapreduce.Job: map 0% reduce 0% 2021-12-01 15:48:53,757 INFO mapreduce
运行wordcount测试LZO压缩的时候报了如下错误2021-12-01 15:48:44,641 INFO mapreduce.Job: Job job_1638343302287_0001 running in uber mode : false2021-12-01 15:48:44,657 INFO mapreduce.Job: map 0% reduce 0%2021-12-01 15:48:53,757 INFO mapreduce.Job: Task Id : attempt_1638
2021-12-01 16:39:53
471
原创 项目经验之HADOOP支持LZO压缩配置
1.hadoop-lzo编译hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需要依赖hadoop和lzo进行编译,编译步骤如下Hadoop支持LZO0. 环境准备maven(下载安装,配置环境变量,修改sitting.xml加阿里云镜像)gcc-c++zlib-develautoconfautomakelibtool通过yum安装即可,yum -y install gcc-c++ lzo-devel zlib-deve
2021-12-01 16:28:19
372
原创 ERROR: Attempting to operate on hdfs namenode as root ERROR: but there is no HDFS_NAMENODE_USER defi
某次打开很久不用的虚拟机,使用root账号登陆hdfs时候报了以下错误[root@hadoop102 hadoop]# start-dfs.sh Starting namenodes on [hadoop102]ERROR: Attempting to operate on hdfs namenode as rootERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.Starting datanodesE.
2021-12-01 14:52:05
3294
2
原创 hadoop节点间数据均衡
开启数据均衡命令start-balancer.sh -threshold 10对于参数10,代表的是集群中各个节点的磁盘利用率相差不超过10%,可根据实际情况进行调正停止数据均衡命令均衡结束后需要将服务关掉,否则占用资源stop-balancer.sh注意:由于HDFS需要启动单独的Rebalance Server 来执行Rebalance操作,所以尽量不要在NameNode 上执行start-balancer.sh,而是找一台比较空闲的机器...
2021-12-01 11:53:24
551
原创 linux多磁盘如何高效使用
linux使用了多块磁盘,如何配置可以使每块磁盘都高效使用在hdfs-site.xml文件中配置多目录,注意新挂载磁盘的访问权限问题HDFS的DataNode节点保存数据的路径由 dfs.datanode.data.dir 参数决定,其默认值为 file://${hadoop.tmp.dir}/dfs/data ,若服务器有多个磁盘,必须对该参数进行修改。使用 df -h 查看服务器磁盘情况,如服务器磁盘有四个,则对该参数修改为如下的值:<property> <name.
2021-12-01 11:34:09
350
原创 Hive汇总
load宏函数临时表创表create table 表名 as select abc from 表名插入insert overwrite table 表名 select abc from 表名
2021-09-29 17:44:35
83
原创 常用数据库驱动以及url
Oracle驱动程序包名ojdbc6.jar驱动类的名字driverClassNameoracle.jdbc.driver.OracleDriverJDBC URLjdbc:oracle:thin:@192.168.100.151:1521:orclmysql驱动程序包mysql-connector-java-5.1.38.jar驱动类名字driverClassNamecom.MySQL.jdbc.DriverJDBC URLjdbc:mysql:
2021-09-28 09:24:19
150
原创 记录一次练习
练习内容1.安装centosvi /etc/sysconfig/network-scripts/ifcfg-ens33 修改网络配置文件BOOTPROTO=staticIPADDR=192.168.100.128~200 虚拟机的IP地址,最后一位在128到200之间NETMASK=255.255.255.0 子网掩码GATEWAY=192.168.100.2 默认网关 安装CentOS的时候在网络界面有,安装的
2021-09-28 07:28:19
112
原创 数据库结构查看
Mysql查看所有数据库show databases;切换进一个数据库use mydemo;查看当前数据库下所有的表show tables;查看某个表的结构desc userinfos;Oracle实例->表空间和用户->表查看所有表空间select name from v$tablespace;查看表空间下面所有的表select TABLE_NAME from dba_tables where TABLESPACE_NAME='MY
2021-09-25 12:05:00
822
原创 SSM流程
新建maven-webapp项目添加依赖Mybatis Spring整合Mybatis和Spring的框架<dependency> <groupId>org.mybatis</groupId> <artifactId>mybatis-spring</artifactId> <version>1.3.2</version></dependency>Mybatis<de.
2021-09-25 08:26:43
148
原创 Hive数据类型、数据库和表操作、数据分区
1.hadoop hive zeppelin启停脚本my_start(){ if [ $1 == "start" ]; then # start hadoop sh /opt/soft/hadoop260/sbin/start-dfs.sh sh /opt/soft/hadoop260/sbin/start-yarn.sh # start hive 后台启动 nohup /opt/soft/hive110/bin/hive --service hiveserver2 &
2021-09-17 21:57:26
236
原创 正则表达式
正则表达式描述了一种字符串匹配的模式,也称规则表达式对字符串做这四件事 : 搜索|替换|分割|匹配 首选正则\d 一个任意数字 0~9\D 一个非数字 除了0~9\w 一个字母 a~z|A~Z|0~9\W 一个非字母\s 一个空格\S 一个非空格[] 字符选择器 只匹配一个“字符” [a-c]:a到c之间任意一个字符 [ac]:a和c之间任意一个字符{} 范围修饰符(修饰前面一个符号出现了多少次) \d{1,2}:最多出现2个,最少出现1个() 字符串选择器
2021-08-23 20:55:21
59
原创 centos以及mysql安装
安装CentOSvi /etc/sysconfig/network-scripts/ifcfg-ens33 修改网络配置文件BOOTPROTO=staticIPADDR=192.168.100.128~200 虚拟机的IP地址,最后一位在128到200之间NETMASK=255.255.255.0 子网掩码GATEWAY=192.168.100.2 默认网关 安装CentOS的时候在网络界面有,安装的时候记录下来DNS1=114.114.114.114 DNS 是域名系统(Sys
2021-08-23 20:54:55
80
原创 JAVA线程
生产者和消费者涉及到线程通讯wait()除了让当前线程等待,还会释放当前锁wait() 让当前线程等待在当前状态,下次被notify()的时候,从当前状态(当前代码)继续往下执行notify()死锁AB...
2021-08-23 20:54:08
52
原创 IDEA初始化
快捷键alt + shift + z: surround withF4: Hierarchyalt + shift + p: implement methodsIDEA 初始化idea.exe.vmoptions修改Xms为4092midea.properties百度修改idea64.exe.vmoptions修改Xms为4092m
2021-08-23 20:52:38
92
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅