服务器本地文件加载到CarbonData与简单sql编写记录
一、加载文件到CarbonData:
1、首先可以传送文件到大数据平台,命令如下:
scp -r -P 端口号 主机名:/本地目录/完整的文件名 ~/服务器目录/
2、服务器上传本地文件到HDFS,命令如下:
hdfs dfs -put ~/服务器本地目录/完整的文件名称 /user/hdfs/hdfs下的目录
3、导入hdfs文件到CarbonData,首先需要启动Spark。
第一步:
cd $SPARK_HOME;
第二步:
./bin/spark-shell --master yarn-client --driver-memory 1g --executor-cores 2 --executor-memory 2G
第三步:
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.CarbonSession._
val carbon = SparkSession.builder().config(sc.getConf).getOrCreateCarbonSession()
第四步:
创建数据库表
carbon.sql(s"""CREATE TABLE
IF NOT EXISTS 数据库.表名(
shopid string,
url string,
price string,
title string,
count string,
createtime string,