大数据
M_O_
书山有路勤为径,学海无崖苦作舟
展开
-
hbase配置hdfs后启动失败
今天按照hbase官方文档配置使用hdfs保存数据, 但是启动后jps没有找到HMaster进程, 查看日志, 发现启动regionserver时出错了, 错误如下:ERROR [main] regionserver.HRegionServer: Failed construction RegionServerjava.lang.NoClassDefFoundError: org/apache...原创 2019-03-30 14:20:51 · 1229 阅读 · 0 评论 -
Spark SQL 访问json和jdbc数据源
文章目录访问json数据从json加载数据写入数据到json基于jdbc访问数据库spark sql可以从很多数据源中读写数据, 比较常用的是json文件和可使用jdbc协议的数据库.访问json数据官方文档: https://spark.apache.org/docs/latest/sql-data-sources-json.html注意: json文件的每一行必须是一个json对象...翻译 2019-06-22 10:21:29 · 219 阅读 · 0 评论 -
Spark SQL Generic Load/Save Functions(2.4.3)
文章目录Generic Load/Save Functions(通用加载/保存函数)Manually Specifying OptionsRun SQL on files directly(直接在文件上执行SQL)Save Modes(保存模式)Saving to Persistent Tables(保存到持久表)Bucketing, Sorting and Partitioning(分桶,排序和...翻译 2019-06-20 14:41:43 · 214 阅读 · 0 评论 -
使用docker安装hadoop2.7.7
官方的安装文档https://hadoop.apache.org/docs/r2.7.7/hadoop-project-dist/hadoop-common/ClusterSetup.html由于线上使用docker, 所以需要打包成docker镜像.具体的步骤:基础镜像选用和当服务器一致的ubuntu16.04, 安装vim和tzdata, 并设置时区为东8区.sources.lis...原创 2019-06-04 14:08:45 · 1525 阅读 · 0 评论 -
一个spark app demo
安装完环境, 现在是时候写一个demo项目了需求就是打印出上传到hdfs中的日志行数.依赖需要用到spark-sql库, 先查看一下spark目录下sql版本:spark-2.4.3-bin-hadoop2.7/jars/spark-sql_2.11-2.4.3.jar那么在程序中引用相同的库 <dependency> <grou...原创 2019-06-10 11:00:01 · 844 阅读 · 0 评论 -
Spark RDD Programming Guide(2.4.3)
原文地址:https://spark.apache.org/docs/latest/rdd-programming-guide.htmlOverview从高层次的角度来看, spark应用由一个驱动程序(运行用户的main函数)和在集群上执行各种并发的操作组成.spark的主要抽象是弹性分布式数据集(RDD), 它是跨集群节点的元素集合, 能被并发操作.RDD是从Hadoop文件系统(或者其...翻译 2019-06-14 14:37:48 · 206 阅读 · 0 评论 -
Spark SQL Start(2.4.3)
原文地址: https://spark.apache.org/docs/latest/sql-programming-guide.htmlOverViewSpark SQL是用于处理结构化数据的spark模块。与基本的Spark RDD API不同,Spark SQL提供的接口为Spark提供了更多的数据结构和计算信息。在内部,Spark SQL使用这些额外的信息来执行额外的优化。有几种方法可...翻译 2019-06-19 11:06:56 · 671 阅读 · 0 评论 -
使用docker安装spark2.4.3
前置说明在安装hbase之前, 安装了hadoop, 因为hbase的数据需要存放到hdfs中spark也与hadoop有关联, 但是要理解spark仅仅用到hadoop的库, 并不依赖hadoop程序, 它不需要安装hadoop, spark仅依赖jdk.spark有四大集群模式: standalone, mesos, yarn, k8s根据数据量, 确定使用最简单的standalone...原创 2019-06-06 11:37:18 · 3054 阅读 · 0 评论 -
使用docker安装hbase2.1.4
版本确定hadoophbase与hadoop兼容表:https://hbase.apache.org/book.html#hadoop据当前hadoop的版本2.7.7,确定hbase的版本为2.1.x, 那么可以使用最新版本2.1.4.jdkhbase与jdk兼容表:https://hbase.apache.org/book.html#basic.prerequisiteshbase...原创 2019-06-05 13:52:34 · 2858 阅读 · 0 评论 -
Spark SQL 访问Hbase
文章目录简介打包生成hbase-spark库读写Hbase参考文档 : https://hbase.apache.org/book.html#_sparksql_dataframes简介hbase-spark integration使用了Spark-1.2.0中引入的DataSource API (SPARK-3247), 它在简单的HBase KV存储和复杂的关系SQL查询之间架起桥梁,使...原创 2019-07-01 18:03:10 · 2758 阅读 · 0 评论