- 博客(44)
- 问答 (1)
- 收藏
- 关注
原创 连接mysql8时提示1251的错误
错误提示1251-Client does not support authentication protocol requested by server; consider upgrading MySQL client解决办法用管理员身份打开cmd,输入"mysql -u root -p" 回车输入root用户密码进入MySQL客户端,然后:mysql> alter user root@localhost identified by 'newpassword' password exp
2020-05-10 12:06:52 404
转载 sql各种连接:笛卡尔积,inner join,left join,right join,full join等的测试与区别
转自 https://blog.csdn.net/u014682191/article/details/53009871首先原数据库的数据有:TEST_A表:和TEST_B表:一、笛卡尔积:(1)不带条件的笛卡尔积:select * from TEST_A a,TEST_B b;(2)带where条件id相等的笛卡尔积:select * fro...
2019-07-17 10:10:33 4408
原创 【大数据学习】SparkSQL之 DataFrame与RDD的互操作
根据官网介绍:Spark SQL支持两种不同的方法将现有的RDDs转换为数据集。第一种方法使用反射来推断包含特定对象类型的RDD的模式。这种基于反射的方法可以生成更简洁的代码,并且当您在编写Spark应用程序时已经知道模式时,这种方法可以很好地工作。这种方式虽然简单,但是不通用;因为生产中的字段是非常非常多的。创建数据集的第二种方法是通过编程接口,该接口允许您构造模式,然后将其应用于现有的RDD。...
2019-04-08 23:16:31 411
原创 【大数据学习】SparkSQL 之 DataFrame与RDD的区别
DataFrame与RDD的区别看上图,左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不了解Person类的内部结构,而右侧的DataFrame就不一样了,它更像是一个二维表格,在这个二维表格里面,有行有列。使得Spark SQL可以清楚地知道该数据集中包含哪些列,每列的名称和类型各是什么。DataFrame多了数据的结构信息,即不仅可以知道里面的数据,而且...
2019-03-27 17:45:09 1026
原创 【大数据学习】之 SparkSQL DataFrame、DataSet的概述
根据官网介绍DataFrame、DataSet:Dataset是一个分布式的数据集合。是spark1.6版本才出来的。它提供RDD中的有点(强类型、lambda表达式、优化SparkSQL执行引擎)。DataFrame中能用的东西大部分在DataSet都能用。DataSet能够通过JVM对象构建出来。DataSet能使用函数表达式(map、flatmap、filter等等)。DataSet ...
2019-03-25 22:56:47 238
原创 【大数据学习】之 SparkSQL概述
Spark SQL概念和用途看官网介绍,Spark SQL是Apache Spark用于处理结构化数据的模块。一、集成将SQL查询与Spark程序无缝混合。Spark SQL允许您使用SQL或熟悉的DataFrame API在Spark程序中查询结构化数据。可用于Java,Scala,Python和R.二、统一数据访问以相同的方式连接到任何数据源。DataFram...
2019-03-18 22:42:21 309
原创 【大数据学习】之 ThriftServer
ThriftServer1、启动,[hadoop@hadoop001 sbin]$ ./start-thriftserver.sh查看是否启动成功jps-m查看UI界面2、通过客户端beeline来连接a、进入 /home/hadoop/app/spark-2.3.1-bin-2.6.0-cdh5.12.0/binb、[hadoop@hadoop001 b...
2019-03-18 00:00:21 2874
原创 【大数据学习】之 用spark-sql和spark-shell操作hive里面的表数据
SparkSQL与Hive的交互有两种方式,一种是spark-sql,另一种是spark-shell。要注意,访问hive前要把$HIVE_HOME/conf/hive-site.xml拷贝到$SPARK_HOME/conf,还有必须要启动hdfs,因为hive的数据是存放在hdfs上的,既然要访问hive所以需要启动hdfs。一、启动spark-sql连hive1、首先要配置spark...
2019-03-15 13:04:08 2553
原创 【大数据学习】之 Spark-RDD core4
SparkCore04一、RDD Persistence简介。指RDD持久化,据官网的解释:Spark 中一个很重要的能力是将数据持久化(或称为缓存),在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时,每个节点的其它分区都可以使用 RDD 在内存中进行计算,在该数据上的其他 action 操作将直接使用内存中的数据。这样会让以后的 action 操作计算速度加快(通常运行速...
2019-02-15 16:16:57 215
原创 CentOS6.5的时间同步
1. 先安装ntpdate工具# yum -y install ntp ntpdate 2. 设置系统时间与网络时间同步# ntpdate cn.pool.ntp.org 3. 将系统时间写入硬件时间# hwclock --systohc4. 最后查查时间是否正确...
2019-01-28 17:33:54 1746
原创 【大数据学习】之 Spark-RDD core3
SparkCore03一. Spark Glossary ( Spark术语 )GlossaryThe following table summarizes terms you’ll see used to refer to cluster concepts:Term MeaningApplication User program built on Spark. Con...
2019-01-16 16:01:39 193
原创 【大数据学习】之 Spark-RDD core2
一、RDD的两种创建方式Resilient Distributed Datasets (RDDs)弹性 分布式 数据集RDDS就是:弹性分布式数据集参考:http://cwiki.apachecn.org/pages/viewpage.action?pageId=2885920Spark 主要以一个弹性分布式数据集(RDD)的概念为中心,它是一个容错且可以执行并行操作的元...
2019-01-06 16:42:19 274
原创 【大数据学习】之 Spark-RDD初认识
一、RDD spark未来的编程方向是DataSet或DataFrame,但是RDD是Spark 的基石、底层,所以必须要掌握先看看github上的介绍:https://github.com/apache/spark/blob/master/core/src/main/scala/org/apache/spark/rdd/RDD.scala或者我们可以从IDEA上的源码...
2018-12-28 18:00:19 217
原创 【大数据学习】之 SQOOP
Sqoop (官网sqoop.apache.org) 一.Sqoop简介1.产生背景MapReduce、Hive===>数据都是存放在HDFS上的 insert into xxx as select ... Web前端如何与使用MapReduce或者Hive处理后的数据进行对接? HDFS ===> RDBMS (如果是HDFS导到关系型数据库...
2018-11-14 18:21:36 346
原创 Hive_DML-函数-分区表
一、DML : Data Manipulation Language 1.加载数据到表:LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]---LOCAL本地的意思,这里是指linux系统,如果没有LOC...
2018-11-05 22:09:31 256
原创 Hive_DLL简介
一、DDL: 全拼是Data Definition LanguageHive的DDL一般是指create delete drop alter关键字开头的操作。官网的介绍https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL 先看看HIVE的一个数据结构图:红色对应的全部都hdfs...
2018-11-05 21:38:10 409
原创 【大数据学习】之早课20181008-20181012
20181008早课1.查看当前目录 pwd2.切换到上一次和上一层目录 上一次 cd - 上一层 cd ..3.隐藏文件标识是什么,什么命令参数查看 隐藏文件标识是. 查看是 ll -a4.which 这个命令是找哪个环境变量里的目录配置 $PATH5.打印环境变量值 命令是什么 echo6.全局环境变量文件在哪?...
2018-11-01 17:31:58 220
原创 【大数据学习】之早课20180925-20180928
20180925早课1.查看当前目录的命令pwd2.隐藏文件什么标识开头,什么命令查看以 . 开头,用ll -a 查看3.创建一个文件有哪些命令touch mv cp echo vi vim4.创建一个级联文件夹的命令mkdir -p 1 2 35.mv和cp区别是什么mv 只有一份,相当于剪切; cp是复制,可以多份6.第5题的命令可不可以用...
2018-10-22 22:15:41 198
原创 【大数据学习】之Hive部署
为了减少冲突,一般来说版本都用统一的比较好,所以选择CDH的部署。前面的hadoop是选择hadoop-2.6.0-cdh5.7.0 ,所以hive安装的版本跟hadooop的尾巴对准了。1、打开http://archive-primary.cloudera.com/cdh5/cdh/5/2、ctrl+F 搜 hive-1.1.0-cdh5.7.0 , 右键选择并点击 hive-1....
2018-10-19 18:01:53 287
原创 【大数据学习】之Hive初认识
1、Hive 产生的背景:a.MapReduce编程不方便:开发、测试、需求变更;b.传统关系型数据库人员的需要,DBA:我就像使用sql一样的方式来处理分析大数据,不需要用mapreduce,那就好了。所以基于以上两点,Hive就出来了。另:文件存放在HDFS之上的,那么如果你想使用SQL去处理它,需要一个什么前提?需要的前提就是结构化、文件映射成表格 ==> Sche...
2018-10-19 18:00:46 378
原创 【大数据学习】之早课20180917-20180921
2018-09-17早课1.MySQL的部署流程大概哪几步解压、参数文件、修改权限、安装、启动2.重置root用户密码的SQL是什么?用到了 什么函数?update user set password=password('xxxxxx') where user='root';比如重置root用户的密码为123456update user set password=pass...
2018-10-16 15:03:03 205
原创 【大数据学习】之hdfs垃圾回收站配置
我们知道linux是没有垃圾回收站的,而hdfs同样默认是没有的,但是hdfs是可以开启垃圾回收站的。1、我们可以登录官网,选2.8.5版本, https://hadoop.apache.org/docs/r2.8.5/ 拉到页面最下面点击core-default.xml2、然后在页面按ctrl + F 全局搜索"trash",找到fs.trash.interval和fs.trash...
2018-10-16 00:25:40 2528
转载 SQL的聚合函数、分组、子查询及组合查询用法
转自 https://www.cnblogs.com/ghost-xyx/p/3811036.html聚合函数:SQL中提供的聚合函数可以用来统计、求和、求最值等等。分类:–COUNT:统计行数量–SUM:获取单个列的合计值–AVG:计算某个列的平均值–MAX:计算列的最大值–MIN:计算列的最小值 首先,创建数据表如下: 执行列、行计数(...
2018-10-09 16:57:20 1159
原创 【大数据学习】之MapReduce Job
1)、先把yarn服务停了[hadoop@hadoop001 hadoop-2.6.0-cdh5.7.0]$ sbin/stop-yarn.sh2)、把之前的信息删了[hadoop@hadoop001 hadoop-2.6.0-cdh5.7.0]$ hdfs dfs -rm -r -f /user3)、再创建hdfs的文件bin/hdfs dfs -mkdir /userbin/h...
2018-09-29 00:05:35 189
原创 【大数据学习】之YARN伪分布式部署
1、先进入 etc/hadoop2、ll查看一下该目录有什么文件,由于没有mapred-site.xml文件,所以需要从其它文件复制一份,同时重命名为mapred-site.xml,cp mapred-site.xml.template mapred-site.xml3、修改mapred-site.xml,在里面添加下面内容<configuration>...
2018-09-27 22:15:35 207
原创 【大数据学习】之hdfs hadoop-2.6.0-cdh5.7.0部署(hadoop用户)
1.添加sudo权限的无密码访问的hadoop用户(1)[root@hadoop001 ~]# useradd hadoop(2)跟着修改/etc/sudoers文件, vi /etc/sudoers 用命令cat /etc/sudoers |grep hadoop 查看一下结果 (3)切换用户:su - ha...
2018-09-26 00:17:16 845
原创 【大数据学习】之早课20180912
1.切换用户和临时获取root用户最大权限的命令分别是什么切换用户是 su临时获取root用户是 sudo2.想要用sudo命令,我们需要配置无密码的临时root最大权限,修改哪个文件,添加一行什么语句?可以修改/etc/suduers这个文件,在里面添加下面这一行 jepson ALL=(ALL) ALL #但是这个是需要输入密码的。或jepson...
2018-09-14 17:30:46 168
原创 【大数据学习】之早课20180914
1.pwd表示什么显示当前目录路径2.隐藏目录什么标识开始,怎么看是以.号开始,用ll -a 查看3.查看文件的大小哪两组命令?ll -hdu -sh xxx.log4查看文件夹的大小命令是什么?du -sh xxxd5.怎样测试端口通不通telnet ip加端口号,比如 telnet 192.168.137.190 806.查看进程和端口号命令分别是什么进程 ...
2018-09-14 11:39:25 138
原创 【大数据学习】之早课20180913
1.如何判断一个Linux上的xxx服务是否存活? 谈谈你们的理解查看进程ps -ef 查看端口netstat -nlp2.端口号哪个命令去看看通不通telnet ip加端口号,比如 telnet 192.168.137.190 803.那么Linux和window系统想想,都会安装telnet吗?linux安装telnet:yum install telnetwindow安装...
2018-09-14 11:36:23 152
原创 【大数据学习】之早课20180911
1.临时获取root权限是修改哪个配置文件?添加一行什么? 命令是什么?/etc/sudoers2.sudo和su能不能一起使用?可以 3.安装RPM包命令什么yum install xxx 4.卸载RPM包命令哪两个?rpm -e xxxyum remove xxx 5.查看命令帮助 是什么? 怎样看有man,helpman userm...
2018-09-12 18:09:31 136
原创 【大数据学习】之早课20180910
1.查看当前目录是什么命令pwd2.切换目录的命令是什么?cd3.切换到家目录有哪些命令? cd 切换当前用户的家目录或cd ~ 切换当前用户的家目录4.切换到 上一次 和 上一层的命令分别是什么cd - 切换到上一次cd ../ 切换到上一层 (另,如果是cd ../../ 表示切换到上上层)5.绝对路径和相对路径...
2018-09-12 00:08:45 134
原创 【大数据学习】之Linux(一)
1、查看当前的路径 pwd2、查看当前目录下的文件和文件夹的名称 ll 或 ls -l3、创建文件夹用mkdir mkdir 文件夹名称 1层 mkdir -p 1/2/3 -p级联创建 mkdir 4 5 6 同一层创建3个目录4、覆盖或追加内容 > 表示覆盖;>> 表示追加未完,...
2018-09-10 23:31:13 172
转载 IDEA创建scala项目的三种方法
转自 https://blog.csdn.net/u013850277/article/details/78526046用了好几年的Eclipse,最近想着了解下Scala,听说Intelli JDEA这个工具很强大,因而开始着手试试 Intelli JDEA,下面是运用该工具创建Scala项目的一些简单操作。 Scala的拥护者们认为Scala的主要优势是速度和它的表达性。 ...
2018-08-29 17:14:41 43205 3
转载 vim+python , CENTOS7安装VIM插件YOUCOMPLETEME
转自http://blog.51cto.com/xujpxm/1909043 和 http://dreamlikes.cn/archives/940 所谓打造,其实就是找一些适合自己的插件,先简单总结一些,我亲测过的几个插件。开始之前先说明一点,这里提到的几个插件都是非常强大和有名气的,但所谓适合自己的才是最好的,文中所说的缺点只是相对个人而言的感受,并不适用所有人。分享出来只是为给大家在选...
2018-08-06 15:25:01 1843
转载 python转义字符——重点解释:\b,\n和\r区别
转自:https://www.cnblogs.com/xueweihan/p/4519517.html 放在最前面:有时我们并不想让转义字符生效,我们只想显示字符串原来的意思,这就要用r和R来定义原始字符串。如:print r'\t\r'实际输出为“\t\r”。主要参考:AllenW的博客转义字符 输出 \' ' \" " ...
2018-07-27 16:00:14 11424 1
原创 Python笔记
1. with open(xxx,'x') as xx:比如 with open(music_meta_file, 'r') as fd:用with open(…) as ..读取music_meta_file的内容,参数 "r"是指:只读,写入,追加等2.enumerate() 函数的用法enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引...
2018-07-27 14:47:37 134
转载 HDFS的基本命令
转载自 https://blog.csdn.net/zhaojw_420/article/details/53161624 HDFS常用命令: 注:以下执行命令均在spark安装目录的bin目录下。 path 为路径 src为文件路径 dist 为文件夹 1、-help[cmd] 显示命令的帮助信息./hdfs dfs -help ls 2、-ls(r) 显示当前目录下的...
2018-07-25 14:55:07 294
原创 Redis2.8.3的启动、状态检查、关闭
启动redis-server ./redis-server /usr/local/src/redis-2.8.3/redis.conf ps -ef |grep redis检查后台进程是否正在运行ps -ef | grep redis #检测6379端口是否在监听netstat -lntp | grep 6379 ...
2018-07-24 10:39:53 1455
转载 Redis安装过程
转自https://www.cnblogs.com/jerrylz/p/5650213.html一、Redis入门概述 1、是什么? (1)全称:REmote DIctionary Server(远程字典服务器)。是完全开源免费的,用C语言编写的, 遵守BCD协议。是一个高性能的(key/value)分布式内存数据库,基于内存运行并支持持久化的NoSQL数据库,是当前最热门...
2018-07-22 08:38:25 137
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人