徐志的博客

专注于spark和数据分析等大数据

spark远程操作hive的一些列操作增删查

因为老早之前配置hive的时候没有把hive的底层计算引擎改为spark,现在对hive的表进行查询的时候很慢,就想把MR换掉,于是这篇文章就诞生了, 首先做准备工作,你需要把hive的hive-site.xml拷贝到你的集群的spark目录下还要在你的win上创建一个resources 把这个...

2018-12-08 17:31:31

阅读数:11

评论数:0

hadoop的心脏---shuffle详解

为了依旧将来回答面试官的问题 这个图片就是mapreduce的流程图 然后是map: 首先我们应该知道默认情况下map的数量是由inputsplit(就是输入分片)的数量决定,然后一个map对应一个环形缓冲区,缓冲区的大小默认是100M然后阈值时80%,到达阈值的时候需要溢写到磁盘,在溢写前需...

2018-12-06 20:59:27

阅读数:13

评论数:0

This type(GenericTypeorg.myorg.quickstart.SocketWindowWordCount.WordWsdithCount)cannotbeusedas

如果你是看的这个官方SocketWindowWordCount 的代码 哈哈哈,亲们报这个错的童鞋注意了,基础知识要掌握牢固啊 我就犯了一个这样的错误,需要自己定义一个JAVABEAN的时候忘记写入无参构造参数了, 然后下面这是加入了的了划红线的部分: 这都是之前写spark程序习惯了,哎学习...

2018-12-05 21:28:20

阅读数:14

评论数:0

2.0的spark的是是如何比1.0的快10-100倍

从三点来理解 1.更简单 支持标准的SQL和简化的API 一,在编程API方面,spark简化了API 二,统一了Scala/java下的Dataset和DataFraeam 三,只需要创建sparksession不再需要创建sparkcontext等系列的初始化对象 四,支持一些管道...

2018-11-26 11:32:29

阅读数:1826

评论数:0

spark源码分析and结构拆解(1)——消息通信原理!!

消息通信原理主要分为三大部分 -------------------------------------------1.spark消息通信架构----------------------------------------------------       spark在各个模块中间例如Mast...

2018-11-26 11:32:17

阅读数:1928

评论数:1

Spark的转换操作基础知识和一些使用技巧!!!(Unit3)

在阅读完最早之前的帖子(点击打开链接)说了如何理解RDD和什么是RDD和对一些基础的术语的解读示例,然后我又发了一份如何创建RDD(点击打开链接)我们这节课来学学习Spark的一些对RDD的转换操作,转换操作就是不会真的进行分布式计算,而是将RDD从一种状态转换到另外一种状态,延迟计算,当一个RD...

2018-11-26 11:32:08

阅读数:2281

评论数:0

linux中HADOOP_HOME和JAVA_HOME清除掉但是依然有效解决方案!!!!

场景: 在平时我们学习或者开发的时候有时候会遇到当我们升级jdk的时候会发现升级之后依然还是以前的版本(HADOOP_HOME也是一样)然我很苦恼!!! 然后从大佬那里听来了一个有效的解决方案!!有两个 第一: 关机重启!!!(小白程序员专用) 在使用服务器的时候千万不要这么玩,会挨打的...

2018-11-21 09:55:52

阅读数:1947

评论数:0

使用SimpleDateFormat将日志文件的时间转换为自定义类型的时间

大家能点进来看 说明大家有对时间格式进行重新修改的想法,话不多说 首先应该根据你的时间格式和目标时间格式来定义两个变量 //原始数据时间:11/05/2017:00:01:02+0800 val fm = new SimpleDateFormat("dd...

2018-11-15 14:34:01

阅读数:11

评论数:0

解析IP地址对应的地区

因为这次的自己的项目中遇到了这种需求,本来是想直接调用百度地图的接口,但是百度一天只能请求一千次好像,不太好,所以我在网上搜了搜,整理的一篇帖子,也是防止以后再工作中遇到类似需求方便解决,我是调用别人写的好的库然后直接打包的,把项目包用git克隆到本地然后直接编译成jar包,这里我已经编译好了,直...

2018-11-11 14:52:11

阅读数:92

评论数:0

flume整合kafka外加操作代码及配置文件!!亲测有效

我这次写的是我在学习完flume和kafka之后做的一个Demo,而且在flume采集完成之后,加上一个kafka能起到消峰缓冲的效果 首先需要的两大组件及其版本 Kafka2.11 Flume1.7 (jdk1.8 scala2.11) 当然具体的安装我就不做过多的解释了,...

2018-11-07 13:42:52

阅读数:36

评论数:0

Kafka下载安装及部署

一、环境配置 操作系统:Cent OS 7 Kafka版本:0.10.0.0 JDK版本:1.8.0_51 二、操作过程 1、下载Kafka并解压 解压: tar zxvf kafka_2.11-0.10.0.0.tgz 2、Kafka目录介绍 /bin 操作kafk...

2018-11-06 15:54:50

阅读数:55

评论数:0

为什么我的消费者只能拿到生产者产生一部分partition的消息!!!原因在这里!!!

能进来看这篇帖子的,说明你已经看过kafka的消费者是怎么样分配partition的。只是你没有把知识活学活用而已

2018-10-30 19:26:10

阅读数:389

评论数:0

使用sparkSQL2.x读取MySQL方法和配置问题

读取数据之前需要你pc上有mysql,有了mysql之后你需要知道详细的配置信息例如账号和密码以及数据库下的表和表结构,你还有要连接驱动(点此下载https://download.csdn.net/download/qq_36968512/10471651) 1.首先你需要创建sparkses...

2018-10-17 11:04:20

阅读数:974

评论数:0

小菜niao解说-----数据仓库和数据库

我相信会在百度上搜索什么是数据仓库或者搜索数据库和数据仓库的区别的时候,大家都是对数据库有了一定了解了(本人反正是这样的,哈哈!!),所以就不再介绍什么是数据库了, 我先给大家大家家讲讲什么是数据仓库: 数据仓库,是为了企业所有级别的决策制定计划过程,提供所有类型数据类型的战略集合。它出于分析性报...

2018-10-14 17:21:51

阅读数:606

评论数:0

spark处理中文乱码问题!!|����| | �㶫| | �Ϻ�| |����| |����| |����|

既然能看见这篇文章,说明你遇到是乱码问题,具体问题咱们就不再分析了,直接来看为什么乱码,如何不让它乱码 首先咱们分析为什么会乱码,首先因为spark没有自己读取文件的方式所以它采用了hadoop的读取文件的方式,因为日志的格式是GBK编码的,而hadoop上的编码默认是用UTF-8,导致最终输出...

2018-09-08 10:39:17

阅读数:1160

评论数:1

IP地址转换成Long型数字算法和原理(全网最细!!)

将ip地址转换成数字地址的时候是我做一个归属地查询的项目是碰见的,开始我并不明白将IP转换成数字地址的原理,可能老师上课讲了但是没有好好听,我觉得想理解下面算法就应该理解IP地址和数字地址的原理(菜鸟专用(^_^)) IP地址一般是一个32位的二进制数意思就是如果将IP地址转换成二进制表示...

2018-09-07 11:51:23

阅读数:1470

评论数:1

关于解决使用sqoop导出数据到mysql中文乱码问题!!!

当我们使用mysql的时候一般情况下都会出现乱码情况,出现这种情况的主要原因一般就是导入的数据和mysql数据的原始编码方式不同造成的,下面就是我的乱码案例: 咱们先看下自己的编码表 一般输入下面这个命令:show variables like 'character%';能查看到以下内容 ...

2018-08-14 15:17:36

阅读数:2720

评论数:1

MongoDB配置复制集和分片!!!

首先在确保你的电脑安装过mongodb和把mongodb的bin目录写到path里面并且成功运行过的情况下来操作如下步骤 复制集: 1同一个文件夹下面写入新建三个文件夹如下图 类似与这种,然后再每个文件下新建立两个文件(nodex对应datax和logx)和一个win的可执行文件(PS:...

2018-08-14 15:17:30

阅读数:2353

评论数:0

关于centos完美安装MsSql数据库!!!(不看肯定后悔的一定后悔!!!!

刚刚入门linux的是的小白们好多都不明白是怎么一回事,但是你用的时间长了,就会发现linux真的很好用,废话不说了,直接开始正题!!! 1.centos7一般会自带数据库  所以大家在安装的一定要先卸载这个自带的数据库! 输入下面命令:   rpm -qa|grep mariadb ...

2018-08-14 15:17:21

阅读数:2670

评论数:3

Spark的低成本安装(win) and 三节点集群安装(linux)

我这里给出两种安装spark的方式,一种是在win上安装另一种就是在linux集群上安装,前一种安装方式是一种低成本的安装没有shell界面,非常适合入过门的小白练习自己对spark的业务处理能力,而且这种安装方式能对电脑省去一大笔的cpu所以个人比较喜欢,第二种安装方式就是和之前安装hadoop...

2018-08-14 15:17:00

阅读数:2074

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭