Spark
sunrising_hill
这个作者很懒,什么都没留下…
展开
-
Spark On Yarn 部署(不带权限功能)注意替换域名和网址
1、在hadoop安装目录下找到yarn-site.xml配置文件,添加如下配置: <property> <name>yarn.nodemanager.pmem-check-enabled</name> <value>false</value> </property> ...原创 2020-02-29 00:36:01 · 439 阅读 · 0 评论 -
Spark 配置History
首先在spark-defaults.conf中添加线面两行:spark.eventLog.enabled truespark.eventLog.dir hdfs://master.domain.com:9000/log/sparkLogs在spark-env.sh中添加下面两行:export SPARK_HISTORY_OPTS="-Dspark....原创 2017-07-28 17:31:37 · 605 阅读 · 0 评论 -
Spark Hbase 集成
安装Spark和Hbase,将Hbase的lib目录下的jar包复制到Spark目录的jars目录下:cp /apps/hbase/lib/metrics-core-2.2.0.jar /apps/spark/jarscp /apps/hbase/lib/hbase*.jar /apps/spark/jars撰写代码,从hbase中读取数据,再通过RDD转换成Dat原创 2018-01-19 16:47:13 · 721 阅读 · 0 评论 -
spark-sql 集成 hive
Hive目录下的hive-site.xml添加: <property> <name>hive.metastore.uris</name> <value>thrift://hm.clusterdomain.com:9083</value> <description>Thrift URI for the remote me...原创 2018-03-07 20:25:10 · 438 阅读 · 0 评论 -
Spark Rdd map和mapPartitions效率问题
当map和mapPartitions参数中的方法并没有额外开销时,比如创建数据库连接,申请其他资源时,使用map比mapPartitions的效率要高,但如果有比较耗时但又可以在整个Partition中的元素中复用的对象或操作时,那么使用mapPartitions并且只创建一次可复用资源的效率更高。map中只是简单的通过Gson将字符串转换为HashMap对象: // 16 9 6 ...原创 2018-02-24 10:29:04 · 1428 阅读 · 0 评论 -
hbase 升级2.1.0
本次hbase从1.2.6升级至2.1.0遇到了两个问题,一个是htrace.jar报错,需要将旧的htrace-core-3.1.0-incubating.jar包上传至hbase-2.1.0的lib目录,另一个问题是jline版本问题,也需要下载高版本jline上传至hbase-2.1.0的lib目录,下载地址:cd /apps/hbase-2.1.0/libwget http:/...原创 2018-08-15 13:53:03 · 1995 阅读 · 0 评论 -
Hive MetaStore服务增大内存
找到hive的安装目录,进入/hive/bin/ext/,编辑 metastore.sh文件,增加以下内容:export HIVE_METASTORE_HADOOP_OPTS="-Xms4096m -Xmx4096m"添加后文件内容如下:THISSERVICE=metastoreexport SERVICE_LIST="${SERVICE_LIST}${THISSERVICE} "...原创 2018-10-16 17:34:49 · 2905 阅读 · 0 评论 -
Windows搭建spark python开发环境
首先安装jdk、scala、hadoop、spark和python1、python是从官网下载exe安装文件,按照步骤进行安装即可。2、jdk从oracle官网下载安装文件,安装即可。3、scala、hadoop和spark则从官网下载压缩文件,解压后放到指定的安装目录即可,还需要下载hadoop在windows下使用到的winutils.exe,放到HADOOP_HOME/bin目录...原创 2019-06-18 10:51:16 · 522 阅读 · 0 评论