盏茶暖阳-CSDN博客

原创 hive常用技巧

此篇不定时更新不成系统，为随笔；– Move partition from table_name_1 to table_name_2ALTER TABLE table_name_2 EXCHANGE PARTITION (partition_spec) WITH TABLE table_name_1;– multiple partitionsALTER TABLE table_name_2...

2019-05-10 14:08:57 277

原创 hive数仓相关

最近在做hive相关的项目，以前做spark也没有太关注数仓，这更多的是关于切入问题解决问题的思路记录。主要就是基于主题库的数据建立对应的专题库以供对应专题服务。一开始因为spark招的我，结果让我来做hive，没办法，拿人钱财，替人解忧，于是乎哼哧哼哧做数仓去了，但是没有经验的我，又没人带只有自己加油搞了咯。好歹自己还有些hive的底子。速成策略：1.首先了解数仓相关知识2.了解事实表与...

2019-03-28 16:44:24 1711

原创 python安装，集成IDEA，Selenium（随笔）

由于最近项目数据以及需求迟迟没有明确下来，我就决定基于自己的兴趣爱好自己搞一个股票数据源，然后再根据原型做前期思路实现。本随笔只是做一个思路参考，主要是我自己踩坑的地方，做自己今后复盘使用，不详细之处还望见谅。安装python注意事项：一个是注意自动添加环境变量的选项，一个就是如果一次安装不能成功就重新安装几次。我就是这样搞定的，一开始环境变量老是不能成功，重新安装就可以了。集成IDEA：主...

2019-03-18 14:30:29 827

原创 pom依赖的正确寻找方式

每次我们遇到难点需要处理的时候，我们首先想到的是百度，个人觉得遇到报错之类的问题首先想到百度是没有错的，但是在遇到配置问题一定要先寻找官网帮助。spark开发的过程中必然会遇到pom依赖的问题，其他开发也会有同样的问题。本着助人为乐，手留余香就将mvn官网寻找pom依赖的链接以及使用方式发出来。下载地址：https://mvnrepository.com/至此应该就找到了自己想要的版本的依赖...

2019-03-08 11:26:56 4167

原创 IDEA整合maven

声明：虽然网上都有各种全面教程，但是我还是想着自己能够较为官方的做一个流程。不过会因为各自的环境不一样可能在客户使用机会有不同的区别。下载官方地址：http://maven.apache.org/download.cgi解压并创建本地jar库环境变量配置maven然后在settings.xml设置阿里云公共库，因为国外镜像会存在下载过慢或者其他问题，推荐使用阿里云库，但是有些...

2019-01-16 20:49:40 718

转载 Apache Kafka：优化部署的 10 种最佳实践

Apache Kafka：优化部署的 10 种最佳实践Hadoop技术博文本文英文原文链接：https://www.infoq.com/articles/apache-kafka-best-practices-to-optimize-your-deployment本文要点Kafka 低开销和友好水平扩展的设计使它可以使用廉价的日用硬件仍能保持成功运行。使用最好的磁盘、分别存储日志、隔离...

2019-01-03 12:15:08 146

转载 Hbase优化

2019-01-03 10:24:26 130

转载 HBASE表设计

2019-01-03 10:22:13 184

转载 HBASE(架构+读写流程)

HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文《Bigtable》一个结构化数据的分布式存储系统"。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力（低延迟的数据查询能力）。HBase是Apache的Hadoop项目的子项目。...

2019-01-03 10:20:15 4321

原创 xshell连接需要公钥【已解决】

这是一个小问题，但是不得其门而入就会很累。解决连接问题首先要想到的是/etc/ssh/sshd_config目录；至于免密互连则是 ~/.ssh目录我解决就是将其他机器的/etc/ssh/sshd_config的sshd_config给copy过来了具体配置文件如下·1 HostKey /etc/ssh/ssh_host_rsa_key2 #HostKey /etc/ssh/ss...

2018-12-26 09:29:37 3809 2

转载 spark集群安装

1.准备环境2.安装JDK3.下载spark安装包（可以先下载在Windows端再上传到Linux端）4.解压spark并修改配置文件（两个配置文件，第一个配置文件添加了3个配置文件）5.将配置好的spark安装程序拷贝给其他机器6.启动spark(sbin/start-all.sh)问题：Worker怎么知道Master在哪里呢？给其他机器发送指令其实是调用：spark/sbin/...

2018-12-25 15:25:11 131

原创 centos7免密互连[问题解决]

我因为要自己搭个测试集群选用了三台主机，免密互通的时候一直是有一台连不上，遇到这种问题的解决方案。网上也讲了很多但是我也是花费了大半天没有解决这个小问题，那么为了能帮助到大家，那么我来详细讲讲百分百解决问题。注意：一定要按照本文一步步来，因为生成秘钥的命令不一样生成文件名字和文件都不一样。（花了我大半天就是解决这点破事，如果熟悉的话几分钟就能够搞定了）我先嘚瑟一下，先删除免密互通。先讲删除，...

2018-12-25 13:10:44 709

转载 spark

scala特性：具备强大的并发性，支持函数式编程，可以更好的支持分布式编程兼容Java，运行速度快切能融合到Hadoop生态圈中Scala语言简洁，能够提供优雅的APIspark与Hadoop的比较Hadoop的缺点：表达能力有限，延迟高，磁盘IO开销大，任务之间的衔接涉及IO开销，在前一个任务执行完成之前，其他任务就无法开始，难以胜任复杂、多阶段的计算任务。Spark相比于Hado...

2018-12-24 17:55:55 383

转载大数据系统基础--文件存储【学习笔记】

本文是在‘学堂在线’app学习大数据系统基础的笔记，鉴于时间原因我仅做概述，如果大家想更深入的了解可以去接去学堂在线搜索“大数据系统基础”学习相关课程。本人在大数据学习也是小学生，理解不当之处可以指出进行修改。分布式文件系统：回顾本地系统的相关知识处理数据的方法分布式文件系统的概述Google文件系统原理（注意扩展性和可靠性方面的考虑）文件系统概述为什么需要文件系统？文件处理...

2018-12-24 13:01:03 510

转载 kafka操作Consumer消费者API

2018-12-19 10:00:56 318

转载 kafka的java操作-Producer生产者

2018-12-19 09:54:22 178

转载 kafka原理

注：kafka从个人经验来说一定要弄清楚生产者以及消费者如何去对接其它组件的，有了这个为基础再弄清楚如何在二者中指定对应的主题以及分区，并且掌握消费者组的概念以及offset和HW的概念就可以做基本的使用了；但是如果需要达到开发级别的话还是需要将kafka原理及相应API阐释清楚。本篇仅概述kafka原理以及两者API的书写，希望对初学者有所帮助，并且也希望高手多多指教。本篇将分为：kaf...

2018-12-19 09:52:45 1199

转载用flume提交文件到hdfs系统，并保持原来的文件名信息【转】

用flume提交文件到hdfs系统，并保持原来的文件名信息的配置方式：配置files_sourcespoolingagent1.sources.files_source.type = spooldiragent1.sources.files_source.spoolDir = /tmp/flumetest/agent1.sources.files_source.fileHeader = ...

2018-12-18 16:00:51 2346

原创 Flume概述

学习flume需要掌握flume的完整工作流程、各组件的作用以及二次开发，并且掌握flume的事物机制。接下来我将讲述flume的架构图用法事物机制结合实际开发讲解flume的二次开发flume的架构图fluflume是分布式的日志收集系统，它将各个服务器中的数据收集起来并发送到指定的地方去，比如说发送到途中的HDFS中，简单来说flume就是收集日志的。注：日志收集系统还有一...

2018-12-18 14:42:13 287

转载 Hadoop三大组件剖析【精】

概述该篇文章主要解释Hadoop2.0三大组件HDFS+MapReduce+Yarn.其中HDFS负责存储，MapRduce负责计算，Yarn负责资源管理。HDFSHDFS架构图namenode,名字节点，最主要管理HDFS的元数据信息datanode,数据节点，存储文件块、replication，文件块的副本，目的是确保数据存储的可靠性rack机器Client客户端。凡是通过...

2018-12-18 12:14:13 4518

原创有点需要注意的哦

本人博人笔记类属于即时记载，不够详尽还望谅解，加精类属于心得篇可能会有理解偏颇，但是会较为详细。

2018-12-18 09:04:42 142

原创大数据系统基础学习笔记一

注：本文是学习由清华大学徐葳老师教授的公开课大数据系统之云计算的笔记。课程分为四部分：云计算与大数据系统之间的关系云计算的商业模式云计算的核心技术----虚拟化计算虚拟化网络虚拟化存储虚拟化云计算技术案例分享总结：云计算的核心思想性能：并行化经济性：规模化、公有云可管理：虚拟化从云计算到大数据虚拟化提供了硬件资源的抽象用...

2018-12-18 09:01:40 1368

weixin_42644102的博客