- 博客(8)
- 收藏
- 关注
原创 浅谈Spark(二)
Spark SQL结构化数据一般指数据有固定的Schema(约束)例如在用户表中,name字段是String型,那么每一条数据的name字段值都可以当作String类型来使用。半结构化数据一般指的是数据没有固定的Schema,但是数据本身是有结构的。没有固定的Schema指的是半结构化数据是没有固定的Schema的,可以理解为没有显示指定Schema,比如说一个用户信息的JSON文件,第一条数据的phone_num有可能是数子,第二条数据的phone_num虽说应该也是数子,但是如果指定为
2020-07-28 15:02:17 210
原创 浅谈Spark(一)
浅谈SparkSpark是闪电般的统一分析引擎Spark当前最新版本是3.0Spark主要包含了SQL and DataFrames和Spark Streaming还有Mlib(machine learning) 还有 GraphX(GRAPH)1.RDD(Resilient Distributed Dateset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变,可分区,里面的元素可并行计算的集合。(RDD将Spark的底层细节都隐藏起来了(自动容错,位置感知,任务调度执行,失
2020-07-27 16:37:29 206
原创 linux基本命令command not found
首先使用export PATH=/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin这会使你的环境变量暂时恢复到原来的环境变量。之后就可以对关于环境变量的配置文件进行修改。我这里修改的时vim /etc/profile我直接在最后加上了 export PATH=/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin,这会使部分命令报错(jps…)原因是新的PAT
2020-06-28 14:40:13 276
原创 namenode启动不了
进入hadoop/sbin目录下使用./hadoop-daemon.sh start namenode启动namenode,发先jps没有namenode进程这里要进入hadoop/logs目录下查看关于namenode的日志我这里报错是namenode没有格式化,所以使用了bin/hadoop namenode -format对namenode进行了格式化之后重启nanenode就好了...
2020-05-26 09:46:47 395
原创 SQL中limit的用法
例如select * from tablename limit 1;查询的是第一条记录可以等效于select * from tablename limit 0,1;select * from tablename limit n,m;就等效于从第n条开始查询m条数据,当n不写时,默认为0...
2020-05-06 08:55:35 354
原创 sql查询最近两次连续注册的时间
准备数据源USE test;CREATE TABLE login(id INT NOT NULL,user_id VARCHAR(255),login_time DATETIME)插入数据INSERT INTO login(id,user_id,login_time) VALUES (1,'u1','2020-04-28 9:20:00');INSERT INTO login(...
2020-04-28 14:49:52 611
翻译 spark on hive 和 hive on spark
spark on hive 的话就是通过spark-sql使用hive语句,操作hive,底层运行的还是spark rdd。就是通过saprk sql,加载hive配置文件,获取hive的元数据信息
2020-04-26 14:37:18 416
原创 sql 50题
表名和字段–1.学生表Student(s_id,s_name,s_birth,s_sex) --学生编号,学生姓名, 出生年月,学生性别–2.课程表Course(c_id,c_name,t_id) – --课程编号, 课程名称, 教师编号–3.教师表Teacher(t_id,t_name) --教师编号,教师姓名–4.成绩表Score(s_id,c_id,s_score) --学生...
2020-02-04 09:02:50 574
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人