leen0304的博客

> < 一头飞翔的菜鸟 > <

Spark常用算子详解汇总 : 实战案例、Java版本、Scala版本

Spark算子[01]:foreach,foreachPartition Spark算子[02]:coalesce,repartition Spark算子[03]:mapPartitions,mapPartitionsWithIndex 源码实战案例分析 Spark算...

2017-12-18 19:07:08

阅读数 880

评论数 0

Python模块subprocess

Python中可以执行shell命令的相关模块和函数有:os.systemos.spawn*os.popen*          --废弃popen2.*           --废弃commands.*      --废弃,3.x中被移除import commands result = com...

2018-06-28 16:01:28

阅读数 130

评论数 0

linux下配置安装python3

一、首先,官网下载python3的所需版本。wget https://www.python.org/ftp/python/3.6.0/Python-3.6.0.tgz想下载到那个文件夹下就先进入到那个文件夹下——cd /home/download二、然后,解压缩文件》tar -xvf Python...

2018-06-24 07:22:30

阅读数 142

评论数 0

linux下mysql中文乱码(中文问号)解决办法

安装完的MySQL的默认字符集为 latin1 ,为了要将其字符集改为用户所需要的(比如utf8),就必须改其相关的配置文件;由于linux下MySQL的默认安装目录分布在不同的文件下;不像windows一样放在同一目录下,只需修改其中的my.ini文件,重起后就生效了;所以先来看看linux下M...

2018-06-01 10:45:43

阅读数 6155

评论数 1

Hive创建表时添加中文注释后乱码问题

创建数据表时我们经验会添加一些中文注释到表里面方便识别,最近在测试hive的时候,发现添在Hive创建表时添加COMMENT时的中文注释就会出现乱码,如下:解压思路:1、查看存放Hive元数据信息的数据库表字符集;是否因为字符集问题可以看出,由于表使用的是默认的latin1字符集,所以中文显示不出...

2018-06-01 10:37:26

阅读数 1885

评论数 0

Linux shell 执行命令 echo是否包含换行符的问题

Linux shell脚本中执行命令结果赋值给变量&amp;amp;&amp;amp;echo输出变量是否包含换行符的问题echo $ret 和 echo &quot;$ret&quot; 区别:如果是echo $ret,输出结果为一行,没有换行符如果是echo &...

2018-05-30 11:46:30

阅读数 2456

评论数 1

HIVE中get_json_object与json_tuple使用

hive中提供了两种针对json数据格式解析的函数,即get_json_object(…)与json_tuple(…),理论不多说,直接上效果示意图:假设存在如下json数据对象,若使用hive环境可这么设置:set hivevar:msg={ &quot;message&quot...

2018-05-10 18:58:01

阅读数 110

评论数 0

hive1.1 启动异常 :Caused by: MetaException(message:Version information not found in metastore. )

配置完成Mysql存储元数据信息,启动异常:Caused by: MetaException(message:Version information not found in metastore.Exception in thread "main" java.lang.Runt...

2018-04-10 19:33:02

阅读数 1267

评论数 0

Spark面对OOM问题的解决方法及优化总结

Spark中的OOM问题不外乎以下两种情况map执行中内存溢出shuffle后内存溢出    map执行中内存溢出代表了所有map类型的操作,包括:flatMap,filter,mapPatitions等。shuffle后内存溢出的shuffle操作包括join,reduceByKey,repar...

2018-03-28 16:58:04

阅读数 166

评论数 0

PyCharm的注册码获取

想必学python的都会用pycharm来写程序,可是pycharm总是需要注册码激活, 以前都是进入http://idea.lanyus.com/ 这个页面获取的注册码,然后在pycharm的activation code选项输入注册码就可以,可是前几天这种方法不能用了,就又找了一种方法: ...

2018-03-27 11:12:41

阅读数 228

评论数 0

编译Spark2.+ 、Hadoop CDH 版本

参考官方文档:http://spark.apache.org/docs/latest/building-spark.html Spark2.2+移除了对hadoop2.5的支持!!! 一、 Spark-2.1.2 编译环境准备 1、hadoop-2.5.0-cdh5.3.6 2、安装并配置...

2018-01-11 19:42:04

阅读数 742

评论数 0

hive表的存储格式 : ORC格式的使用

hive表的源文件存储格式有几类:1、TEXTFILE 默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理。源文件可以直接通过hadoop fs -cat 查看2、SEQUENCEFILE 一种Hadoop API提供的二进制文件,使用方便、可分割、可压...

2018-01-03 16:28:55

阅读数 1282

评论数 0

Hive学习之抽样(tablesample)

当数据量特别大时,对全体数据进行处理存在困难时,抽样就显得尤其重要了。抽样可以从被抽取的数据中估计和推断出整体的特性,是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。Hive支持桶表抽样和块抽样,下面分别学习。所谓桶表指的是在创建表时使用CLUSTERED BY子句创建了桶的...

2018-01-03 15:41:03

阅读数 1209

评论数 0

SparkSQL 之 基于Java实现UDF和UDAF详解

UDF源码:最多传入参数为22个//传入两个参数 def register(name: String, f: UDF2[_, _, _], returnType: DataType): Unit = { val func = f.asInstanceOf[UDF2[Any, Any, Any]...

2017-12-27 17:11:28

阅读数 2204

评论数 0

SparkSQL 之 RDD转为DataSet的两种方式

DataFrame可以从结构化文件、hive表、外部数据库以及现有的RDD加载构建得到。这里主要针对从现有的RDD来构建DataFrame进行实践与解析。 Spark SQL支持将现有的RDDs转换为DataSet的两种不同的方法。 第一种方法是使用反射来推断包含特定对象类型的RDD的模式。...

2017-12-27 10:54:54

阅读数 5460

评论数 0

Spark RDD、DataFrame和DataSet的区别

RDD优点: 编译时类型安全 编译时就能检查出类型错误 面向对象的编程风格 直接通过类名点的方式来操作数据 缺点: 序列化和反序列化的性能开销 无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化. GC的性能开销 频繁的创建和...

2017-12-23 11:34:37

阅读数 190

评论数 0

Spark 2.x 自定义累加器AccumulatorV2的使用

废除Spark2.x之后,之前的的accumulator被废除,用AccumulatorV2代替;更新增加创建并注册一个long accumulator, 从“0”开始,用“add”累加 def longAccumulator(name: String): LongAccumulator = {...

2017-12-21 18:03:52

阅读数 2780

评论数 0

使用git将项目上传到github(最简单方法)

使用git将项目上传到github(最简单方法) 首先你需要一个github账号,所有还没有的话先去注册吧!https://github.com/我们使用git需要先安装git工具,这里给出下载地址,下载后一路直接安装即可:https://git-for-wind...

2017-12-21 15:12:37

阅读数 150

评论数 0

Spark将数据写入Hbase以及从Hbase读取数据

本文将介绍 1、spark如何利用saveAsHadoopDataset和saveAsNewAPIHadoopDataset将RDD写入hbase 2、spark从hbase中读取数据并转化为RDD 操作方式为在eclipse本地运行spark连接到远程的hbase。 java版本:1.7.0 s...

2017-12-20 18:28:39

阅读数 2596

评论数 0

Spark算子[20]:saveAsHadoopDataset、saveAsNewAPIHadoopDataset 实例详解

概要 saveAsHadoopDataset: 使用旧的Hadoop API将RDD输出到任何Hadoop支持的存储系统,为该存储系统使用Hadoop JobConf 对象。 JobConf设置一个OutputFormat和任何需要的输出路径(如要写入的表名),就像为Hadoop MapRedu...

2017-12-20 17:27:19

阅读数 1894

评论数 1

提示
确定要删除当前文章?
取消 删除
关闭
关闭