大数据
ITqingliang
一位努力的boy
展开
-
获取database/schema的privileges
在postgresql数据库中,有information_schema.table_privileges这个view,可以直接查看某个用户对于某张表有哪些权限。现在有个需求 ,希望对于database/schema也能这么方便的查询。database_privilegesSELECT pd.datname AS database_name, COALESCE(NULLIF(role.name, ''::name), 'PUBLIC'::name) AS grantee,"substring"((原创 2020-09-09 10:11:48 · 361 阅读 · 0 评论 -
spark shuffer调优
性能优化 shufflespark.shuffle.file.buffer,默认32kspark.shuffle.memoryFraction,0.2map端内存缓冲,reduce端内存占比;很多资料、网上视频,都会说,这两个参数,是调节shuffle性能的不二选择,很有效果的样子,实际上,不是这样的。以实际的生产经验来说,这两个参数没有那么重要,往往来说,shuffle的性能不是因为...原创 2020-01-21 10:27:28 · 345 阅读 · 0 评论 -
HBase基本数据操作详解
文章目录概述使用命名空间Namespace命名空间管理预定义的命名空间创建表删除表修改表新增、更新数据Put常用构造函数常用方法实例代码删除数据Delete构造函数常用方法实例代码获取单行Get构造函数常用方法实测代码获取多行Scan常用构造函数常用方法实测代码概述对于建表,和RDBMS类似,HBase也有namespace的概念,可以指定表空间创建表,也可以直接创建表,进入default表空...原创 2020-01-15 12:13:31 · 606 阅读 · 0 评论 -
Spark中persist和cache的区别
昨天面试被问到了cache和persist区别,当时只记得是其中一个调用了另一个,但没有回答出二者的不同,所以回来后重新看了源码,算是弄清楚它们的区别了。cache和persist都是用于将一个RDD进行缓存的,这样在之后使用的过程中就不需要重新计算了,可以大大节省程序运行时间。cache和persist的区别基于Spark 1.4.1 的源码,可以看到/** Persist this RDD wi转载 2017-11-20 08:26:24 · 705 阅读 · 0 评论 -
elasticsearch启动失败
今天在启动elasticsearch遇到了这个问题,然后查到了这篇文章,当我改完之后,还真的是空格的问题。又白白浪费时间啦 这里整理几个空格引起的问题.版本是elasticsearch-2.3.0 或者elasticsearch-rtf-masterException in thread “main” SettingsException[Failed to load settings f转载 2017-11-02 19:18:01 · 5678 阅读 · 2 评论 -
spark--JVM调优
堆内存存放我们创建的一些对象,有老年代和年轻代。理想情况下,老年代都是放一些生命周期很长的对象,数量应该是很少的,比如数据库连接池。我们在spark task执行算子函数(我们自己写的),可能会创建很多对象,这些对象都是要放入JVM年轻代中的。每一次放对象的时候,都是放入eden区域,和其中一个survivor区域。另外一个survivor区域是空闲的。当eden区域和一个survivor原创 2017-11-11 15:01:59 · 402 阅读 · 0 评论 -
Spark问题:System memory 259522560 must be at least 4.718592E8. Please use a larger heap size.
在本地运行Spark程序时:报出下面的异常:Exception in thread "main" java.lang.IllegalArgumentException: System memory 259522560 must be at least 4.718592E8. Please use a larger heap size.这主要是运行内存的问题,所以我们在运行的时候更改JV原创 2017-10-25 12:54:20 · 1959 阅读 · 0 评论 -
sqoop的安装和使用
sqoop是什么? sqoop是一个hadoop(HDFS,Hbase,hive)和结构数据库(关系型数据库)之间进行数据整合的工具.sqoop的安装1.解压并配置环境变量2.配置配置文件 ./conf/sqoop-env.shmv sqoop-env-template.cmd sqoop-env.shvi sqoop-env.sh#Set path to原创 2017-10-14 14:35:14 · 344 阅读 · 0 评论 -
hive安装
hive安装有三种模式:内嵌模式:元数据保持在内嵌的derby模式,只允许一个会话连接本地独立模式:在本地安装Mysql,把元数据放到mySql内远程模式:元数据放置在远程的Mysql数据库1.下载hive安装包下载地址: http://hive.apache.org/downloads.html原创 2017-10-11 08:56:05 · 328 阅读 · 0 评论 -
解决“org.apache.hadoop.security.AccessControlException”
在运行某个Spark Application的时候,需要向Hdfs写入文件,控制台会输出以下错误信息:Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): Permission denied: user=Administrator, access=WRI转载 2017-09-13 08:45:28 · 1695 阅读 · 0 评论 -
adoop Error: java.io.IOException: Unable to initialize any output collector
今天写程序的时候是真的气,运行时出现了Hadoop Error: java.io.IOException: Unable to initialize any output collector的错误.然后自己去百度,发现很多都是说,Text的包导错啦,或者是Bean没有写无参的构造函数. 后面我就去检查自己的代码,发现自己都写了.最后才知道,我的Bean实体需要实现排序,所以实现了Wri原创 2017-09-11 22:25:58 · 916 阅读 · 0 评论 -
新手搭建Hadoop集群
一步一步教你搭建Hadoop集群.即使是第一次玩Linux,也可以搭建Hadoop集群.1.准备Linux环境1.0先将虚拟机的网络模式选为NAT这里先在net网络模式下自嗨,下面介绍的网络配置都是讲的net模式下的设置. 1.1修改主机名vi /etc/sysconfig/networkNETWORKING=yesHOSTNAME=itcast原创 2017-09-08 15:54:08 · 410 阅读 · 0 评论 -
大数据面试题
Big Data 面试题总结 JAVA相关 1-1)List与set的区别?老掉牙的问题了,还在这里老生常谈:List特点:元素有放入顺序,元素可重复 ,Set特点:元素无放入顺序,元素不可重复。 1-2)数据库的三大范式?原子性、一致性、唯一性 1-3)java的io类的图解 1-4)对象与引用对象的区别对象就是好没有初始化的对象,引用对象即使对这个对象进行了初始化,这个转载 2017-09-22 19:17:58 · 1848 阅读 · 0 评论 -
Hadoop问题: WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform...
转载请注明出处:http://blog.csdn.net/l1028386804/article/details/51538611配置完hadoop启动的时候出现如下警告信息: WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes转载 2017-09-14 16:58:29 · 392 阅读 · 0 评论