![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
AMlyq
这个作者很懒,什么都没留下…
展开
-
Kerberos使用
/usr/bin/ftp 文件传输协议程序 /usr/bin/kdestroy 销毁 Kerberos 票证 /usr/bin/kinit 获取并缓存 Kerberos 票证授予票证 /usr/bin/klist 显示当前的 Kerberos 票证 /usr/bin/kpasswd 更改 Kerberos 口令...原创 2021-07-21 18:12:36 · 288 阅读 · 2 评论 -
docker on yarn
docker on yarn原创 2020-03-11 14:23:50 · 484 阅读 · 0 评论 -
spark on yarn多版本共存问题解决方案
spark on yarn原创 2020-03-10 14:18:25 · 1181 阅读 · 5 评论 -
Yarn运行大致流程
原创 2020-03-10 13:35:06 · 111 阅读 · 0 评论 -
kafka2.1集群部署
jdk部署 下载安装包:wgetwget --no-check-certificate --no-cookies --header "Cookie: oraclelicense=accept-securebackup-cookie" http://download.oracle.com/otn-pub/java/jdk/8u121-b13/e9e7ea248e2c4826b92b3f0...原创 2019-10-28 12:49:35 · 360 阅读 · 0 评论 -
大数据集群磁盘离线挂载
一、离线磁盘 1.删除hdfs配置文件磁盘的信息 vim /etc/hadoop/hdfs-site.xml 进入编辑模式,删除磁盘信息并保存退出 2.重启服务检查文件 su hdfs hdfs dfsadmin -r...原创 2019-07-05 10:55:01 · 492 阅读 · 0 评论 -
大数据部分组建相关命令
1、Hadoop集群(1)启动方式切换到主节点的hadoop安装目录下的sbin目录下 a)/start-dfs.sh ./start-yarn.sh (建议使用) b)./start-all.sh(2)关闭方式 a)./stop-dfs.sh ./stop-yarn.sh (建议使用) b)./stop-all.sh2、Spark集...原创 2018-10-10 10:55:13 · 134 阅读 · 0 评论 -
大数据项目大致流程
1、提出需求-需要和多个部门负责人进行协商:关于项目的可行性分析2、需求分析-进行需求调研(研究竞品)、市场调研,如果是给甲方做产品,需要和甲方协商需求细则3、技术选型-需要多个开发部门的人员参与协商 考虑的角度:数据的生成、数据采集、源数据的存储、数据清洗、消息中间件、数据分析引擎、结果数据的存储、数据的展示4、可行性分析-预研工作:搭建技术平台,测试可行性5、指标分析-需求和指...原创 2018-09-29 11:25:07 · 10067 阅读 · 3 评论 -
kafka使用笔记
1、Segment的概念?一个分区被分成相同大小数据条数不相等的segment,每个segment由多个index文件和数据文件(.log)组成2、数据的存储机制?首先是Broker接收到数据后,将数据放到操作系统(linux)的缓存里(pagecache),pagecache会尽可能多的使用空闲内存,使用sendfile技术尽可能多的减少操作系统和应用程序之间进行重复缓存,写入数...原创 2018-09-29 11:18:45 · 141 阅读 · 0 评论 -
kafka常见命令
启动Kafka:/export/servers/zookeeper/bin/zkServer.sh startnohup /home/hadoop/develop_env/kafka/bin/kafka-server-start.sh /home/hadoop/develop_env/kafka/config/server.properties &查看当前服务器中的所有topicb...原创 2018-09-29 11:16:02 · 164 阅读 · 0 评论 -
kafka常见问题如果想消费已经被消费过的数据
1、consumer是底层采用的是一个阻塞队列,只要一有producer生产数据,那consumer就会将数据消费。当然这里会产生一个很严重的问题,如果你重启一消费者程序,那你连一条数据都抓不到,但是log文件中明明可以看到所有数据都好好的存在。换句话说,一旦你消费过这些数据,那你就无法再次用同一个groupid消费同一组数据了。原因:消费者消费了数据并不从队列中移除,只是记录了offse...原创 2018-09-29 11:11:49 · 15293 阅读 · 1 评论 -
IDEA快捷键使用
Ctrl+Alt+t 选择代码块 try catchAlt+回车 导入包,自动修正Ctrl+N 查找类Ctrl+Shift+N 查找文件Ctrl+Alt+L 格式化代码Ctrl+Alt+O 优化导入的类和包Alt+Insert 生成代码(如get,set方法,构造函数等) mac系统 fn+alt+回车Ctrl+E或者Alt+Shift+C 最近更改的代码Ctrl+R 替...原创 2018-09-29 11:05:51 · 151 阅读 · 0 评论 -
oozie错误
1、Cannot run program "en.sh" (in directory "/home/install/hadoop-2.5.0-cdh5.3.6/tmp/nm-local-dir/usercache/hadoop/appcache/application_1523583797725_0010/container_1523583797725_0010_01_000002"):erro...原创 2018-09-29 11:03:03 · 1490 阅读 · 0 评论 -
Hadoop shuffer 和 Spark shuffer区别
Hadoop shuffer阶段分为mapshuffer阶段,reduceshuffer阶段两个阶段在理解之前需要知道shuffer是什么意思,mapreduce的任务流程,大家可以先理解一下再进一步学习下一阶段,图1、2是我在网上找了两个画的不错的mapreduce任务流程图帮助你们理解。mapshuffer阶段: 这个阶段发生在map阶段之后(数据写入内存之前),数据在写入内...原创 2018-09-29 11:55:38 · 3661 阅读 · 0 评论