奔走觅衣粮-CSDN博客

原创连接mysql8时提示1251的错误

错误提示1251-Client does not support authentication protocol requested by server; consider upgrading MySQL client解决办法用管理员身份打开cmd，输入"mysql -u root -p" 回车输入root用户密码进入MySQL客户端，然后：mysql> alter user root@localhost identified by 'newpassword' password exp

2020-05-10 12:06:52 404

原创 kettle配置命名参数

job 内容作业属性设置变量

2019-10-08 11:29:51 1293

转载 sql各种连接:笛卡尔积,inner join,left join,right join,full join等的测试与区别

转自 https://blog.csdn.net/u014682191/article/details/53009871首先原数据库的数据有：TEST_A表：和TEST_B表：一、笛卡尔积：（1）不带条件的笛卡尔积：select * from TEST_A a,TEST_B b;（2）带where条件id相等的笛卡尔积：select * fro...

2019-07-17 10:10:33 4408

原创【大数据学习】SparkSQL之 DataFrame与RDD的互操作

根据官网介绍：Spark SQL支持两种不同的方法将现有的RDDs转换为数据集。第一种方法使用反射来推断包含特定对象类型的RDD的模式。这种基于反射的方法可以生成更简洁的代码，并且当您在编写Spark应用程序时已经知道模式时，这种方法可以很好地工作。这种方式虽然简单，但是不通用；因为生产中的字段是非常非常多的。创建数据集的第二种方法是通过编程接口，该接口允许您构造模式，然后将其应用于现有的RDD。...

2019-04-08 23:16:31 411

原创【大数据学习】SparkSQL 之 DataFrame与RDD的区别

DataFrame与RDD的区别看上图，左侧的RDD[Person]虽然以Person为类型参数，但Spark框架本身不了解Person类的内部结构，而右侧的DataFrame就不一样了，它更像是一个二维表格，在这个二维表格里面，有行有列。使得Spark SQL可以清楚地知道该数据集中包含哪些列，每列的名称和类型各是什么。DataFrame多了数据的结构信息，即不仅可以知道里面的数据，而且...

2019-03-27 17:45:09 1026

原创【大数据学习】之 SparkSQL DataFrame、DataSet的概述

根据官网介绍DataFrame、DataSet：Dataset是一个分布式的数据集合。是spark1.6版本才出来的。它提供RDD中的有点（强类型、lambda表达式、优化SparkSQL执行引擎）。DataFrame中能用的东西大部分在DataSet都能用。DataSet能够通过JVM对象构建出来。DataSet能使用函数表达式（map、flatmap、filter等等）。DataSet ...

2019-03-25 22:56:47 238

原创【大数据学习】之 SparkSQL概述

Spark SQL概念和用途看官网介绍，Spark SQL是Apache Spark用于处理结构化数据的模块。一、集成将SQL查询与Spark程序无缝混合。Spark SQL允许您使用SQL或熟悉的DataFrame API在Spark程序中查询结构化数据。可用于Java，Scala，Python和R.二、统一数据访问以相同的方式连接到任何数据源。DataFram...

2019-03-18 22:42:21 309

原创【大数据学习】之 ThriftServer

ThriftServer1、启动，[hadoop@hadoop001 sbin]$ ./start-thriftserver.sh查看是否启动成功jps-m查看UI界面2、通过客户端beeline来连接a、进入 /home/hadoop/app/spark-2.3.1-bin-2.6.0-cdh5.12.0/binb、[hadoop@hadoop001 b...

2019-03-18 00:00:21 2874

原创【大数据学习】之用spark-sql和spark-shell操作hive里面的表数据

SparkSQL与Hive的交互有两种方式，一种是spark-sql,另一种是spark-shell。要注意，访问hive前要把$HIVE_HOME/conf/hive-site.xml拷贝到$SPARK_HOME/conf，还有必须要启动hdfs，因为hive的数据是存放在hdfs上的，既然要访问hive所以需要启动hdfs。一、启动spark-sql连hive1、首先要配置spark...

2019-03-15 13:04:08 2553

原创【大数据学习】之 Spark-RDD core4

SparkCore04一、RDD Persistence简介。指RDD持久化，据官网的解释：Spark 中一个很重要的能力是将数据持久化（或称为缓存），在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时，每个节点的其它分区都可以使用 RDD 在内存中进行计算，在该数据上的其他 action 操作将直接使用内存中的数据。这样会让以后的 action 操作计算速度加快（通常运行速...

2019-02-15 16:16:57 215

原创 CentOS6.5的时间同步

1. 先安装ntpdate工具# yum -y install ntp ntpdate 2. 设置系统时间与网络时间同步# ntpdate cn.pool.ntp.org 3. 将系统时间写入硬件时间# hwclock --systohc4. 最后查查时间是否正确...

2019-01-28 17:33:54 1746

原创【大数据学习】之 Spark-RDD core3

SparkCore03一． Spark Glossary ( Spark术语 )GlossaryThe following table summarizes terms you’ll see used to refer to cluster concepts:Term MeaningApplication User program built on Spark. Con...

2019-01-16 16:01:39 193

原创【大数据学习】之 Spark-RDD core2

一、RDD的两种创建方式Resilient Distributed Datasets (RDDs)弹性分布式数据集RDDS就是：弹性分布式数据集参考：http://cwiki.apachecn.org/pages/viewpage.action?pageId=2885920Spark 主要以一个弹性分布式数据集（RDD）的概念为中心，它是一个容错且可以执行并行操作的元...

2019-01-06 16:42:19 274

原创【大数据学习】之 Spark-RDD初认识

一、RDD spark未来的编程方向是DataSet或DataFrame，但是RDD是Spark 的基石、底层，所以必须要掌握先看看github上的介绍：https://github.com/apache/spark/blob/master/core/src/main/scala/org/apache/spark/rdd/RDD.scala或者我们可以从IDEA上的源码...

2018-12-28 18:00:19 217

原创【大数据学习】之 SQOOP

Sqoop （官网sqoop.apache.org）一．Sqoop简介1.产生背景MapReduce、Hive===>数据都是存放在HDFS上的 insert into xxx as select ... Web前端如何与使用MapReduce或者Hive处理后的数据进行对接？ HDFS ===> RDBMS (如果是HDFS导到关系型数据库...

2018-11-14 18:21:36 346

原创 Hive_DML-函数-分区表

一、DML : Data Manipulation Language 1.加载数据到表：LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]---LOCAL本地的意思，这里是指linux系统，如果没有LOC...

2018-11-05 22:09:31 256

原创 Hive_DLL简介

一、DDL: 全拼是Data Definition LanguageHive的DDL一般是指create delete drop alter关键字开头的操作。官网的介绍https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL 先看看HIVE的一个数据结构图：红色对应的全部都hdfs...

2018-11-05 21:38:10 409

原创【大数据学习】之早课20181008-20181012

20181008早课1.查看当前目录 pwd2.切换到上一次和上一层目录上一次 cd - 上一层 cd ..3.隐藏文件标识是什么，什么命令参数查看隐藏文件标识是. 查看是 ll -a4.which 这个命令是找哪个环境变量里的目录配置 $PATH5.打印环境变量值命令是什么 echo6.全局环境变量文件在哪?...

2018-11-01 17:31:58 220

原创【大数据学习】之早课20180925-20180928

20180925早课1.查看当前目录的命令pwd2.隐藏文件什么标识开头，什么命令查看以 . 开头，用ll -a 查看3.创建一个文件有哪些命令touch mv cp echo vi vim4.创建一个级联文件夹的命令mkdir -p 1 2 35.mv和cp区别是什么mv 只有一份，相当于剪切； cp是复制，可以多份6.第5题的命令可不可以用...

2018-10-22 22:15:41 198

原创【大数据学习】之Hive部署

为了减少冲突，一般来说版本都用统一的比较好，所以选择CDH的部署。前面的hadoop是选择hadoop-2.6.0-cdh5.7.0 ，所以hive安装的版本跟hadooop的尾巴对准了。1、打开http://archive-primary.cloudera.com/cdh5/cdh/5/2、ctrl+F 搜 hive-1.1.0-cdh5.7.0 , 右键选择并点击 hive-1....

2018-10-19 18:01:53 287

原创【大数据学习】之Hive初认识

1、Hive 产生的背景：a.MapReduce编程不方便：开发、测试、需求变更;b.传统关系型数据库人员的需要,DBA：我就像使用sql一样的方式来处理分析大数据，不需要用mapreduce,那就好了。所以基于以上两点，Hive就出来了。另：文件存放在HDFS之上的，那么如果你想使用SQL去处理它，需要一个什么前提？需要的前提就是结构化、文件映射成表格 ==> Sche...

2018-10-19 18:00:46 378

原创【大数据学习】之早课20180917-20180921

2018-09-17早课1.MySQL的部署流程大概哪几步解压、参数文件、修改权限、安装、启动2.重置root用户密码的SQL是什么?用到了什么函数?update user set password=password('xxxxxx') where user='root';比如重置root用户的密码为123456update user set password=pass...

2018-10-16 15:03:03 205

原创【大数据学习】之hdfs垃圾回收站配置

我们知道linux是没有垃圾回收站的，而hdfs同样默认是没有的，但是hdfs是可以开启垃圾回收站的。1、我们可以登录官网，选2.8.5版本， https://hadoop.apache.org/docs/r2.8.5/ 拉到页面最下面点击core-default.xml2、然后在页面按ctrl + F 全局搜索"trash"，找到fs.trash.interval和fs.trash...

2018-10-16 00:25:40 2528

转载 SQL的聚合函数、分组、子查询及组合查询用法

转自 https://www.cnblogs.com/ghost-xyx/p/3811036.html聚合函数：SQL中提供的聚合函数可以用来统计、求和、求最值等等。分类：–COUNT：统计行数量–SUM：获取单个列的合计值–AVG：计算某个列的平均值–MAX：计算列的最大值–MIN：计算列的最小值首先，创建数据表如下：执行列、行计数（...

2018-10-09 16:57:20 1159

原创【大数据学习】之MapReduce Job

1)、先把yarn服务停了[hadoop@hadoop001 hadoop-2.6.0-cdh5.7.0]$ sbin/stop-yarn.sh2)、把之前的信息删了[hadoop@hadoop001 hadoop-2.6.0-cdh5.7.0]$ hdfs dfs -rm -r -f /user3)、再创建hdfs的文件bin/hdfs dfs -mkdir /userbin/h...

2018-09-29 00:05:35 189

原创【大数据学习】之YARN伪分布式部署

1、先进入 etc/hadoop2、ll查看一下该目录有什么文件，由于没有mapred-site.xml文件，所以需要从其它文件复制一份，同时重命名为mapred-site.xml，cp mapred-site.xml.template mapred-site.xml3、修改mapred-site.xml，在里面添加下面内容<configuration>...

2018-09-27 22:15:35 207

原创【大数据学习】之hdfs hadoop-2.6.0-cdh5.7.0部署（hadoop用户）

1.添加sudo权限的无密码访问的hadoop用户（1）[root@hadoop001 ~]# useradd hadoop（2）跟着修改/etc/sudoers文件， vi /etc/sudoers 用命令cat /etc/sudoers |grep hadoop 查看一下结果（3）切换用户：su - ha...

2018-09-26 00:17:16 845

原创【大数据学习】之早课20180912

1.切换用户和临时获取root用户最大权限的命令分别是什么切换用户是 su临时获取root用户是 sudo2.想要用sudo命令，我们需要配置无密码的临时root最大权限，修改哪个文件，添加一行什么语句?可以修改/etc/suduers这个文件，在里面添加下面这一行 jepson ALL=(ALL) ALL #但是这个是需要输入密码的。或jepson...

2018-09-14 17:30:46 168

原创【大数据学习】之早课20180914

1.pwd表示什么显示当前目录路径2.隐藏目录什么标识开始，怎么看是以.号开始，用ll -a 查看3.查看文件的大小哪两组命令?ll -hdu -sh xxx.log4查看文件夹的大小命令是什么?du -sh xxxd5.怎样测试端口通不通telnet ip加端口号，比如 telnet 192.168.137.190 806.查看进程和端口号命令分别是什么进程 ...

2018-09-14 11:39:25 138

原创【大数据学习】之早课20180913

1.如何判断一个Linux上的xxx服务是否存活? 谈谈你们的理解查看进程ps -ef 查看端口netstat -nlp2.端口号哪个命令去看看通不通telnet ip加端口号，比如 telnet 192.168.137.190 803.那么Linux和window系统想想，都会安装telnet吗?linux安装telnet：yum install telnetwindow安装...

2018-09-14 11:36:23 152

原创【大数据学习】之早课20180911

1.临时获取root权限是修改哪个配置文件?添加一行什么? 命令是什么?/etc/sudoers2.sudo和su能不能一起使用?可以 3.安装RPM包命令什么yum install xxx 4.卸载RPM包命令哪两个?rpm -e xxxyum remove xxx 5.查看命令帮助是什么? 怎样看有man，helpman userm...

2018-09-12 18:09:31 136

原创【大数据学习】之早课20180910

1.查看当前目录是什么命令pwd2.切换目录的命令是什么?cd3.切换到家目录有哪些命令? cd 切换当前用户的家目录或cd ~ 切换当前用户的家目录4.切换到上一次和上一层的命令分别是什么cd - 切换到上一次cd ../ 切换到上一层（另，如果是cd ../../ 表示切换到上上层）5.绝对路径和相对路径...

2018-09-12 00:08:45 134

原创【大数据学习】之Linux（一）

1、查看当前的路径 pwd2、查看当前目录下的文件和文件夹的名称 ll 或 ls -l3、创建文件夹用mkdir mkdir 文件夹名称 1层 mkdir -p 1/2/3 -p级联创建 mkdir 4 5 6 同一层创建3个目录4、覆盖或追加内容 > 表示覆盖；>> 表示追加未完，...

2018-09-10 23:31:13 172

转载 IDEA创建scala项目的三种方法

转自 https://blog.csdn.net/u013850277/article/details/78526046用了好几年的Eclipse，最近想着了解下Scala，听说Intelli JDEA这个工具很强大，因而开始着手试试 Intelli JDEA，下面是运用该工具创建Scala项目的一些简单操作。 Scala的拥护者们认为Scala的主要优势是速度和它的表达性。 ...

2018-08-29 17:14:41 43205 3

转载 vim+python , CENTOS7安装VIM插件YOUCOMPLETEME

转自http://blog.51cto.com/xujpxm/1909043 和 http://dreamlikes.cn/archives/940 所谓打造，其实就是找一些适合自己的插件，先简单总结一些，我亲测过的几个插件。开始之前先说明一点，这里提到的几个插件都是非常强大和有名气的，但所谓适合自己的才是最好的，文中所说的缺点只是相对个人而言的感受，并不适用所有人。分享出来只是为给大家在选...

2018-08-06 15:25:01 1843

转载 python转义字符——重点解释：\b,\n和\r区别

转自：https://www.cnblogs.com/xueweihan/p/4519517.html 放在最前面：有时我们并不想让转义字符生效，我们只想显示字符串原来的意思，这就要用r和R来定义原始字符串。如：print r'\t\r'实际输出为“\t\r”。主要参考：AllenW的博客转义字符输出 \'　　 ' \" " ...

2018-07-27 16:00:14 11424 1

原创 Python笔记

1. with open(xxx,'x') as xx:比如 with open(music_meta_file, 'r') as fd:用with open(…) as ..读取music_meta_file的内容，参数 "r"是指：只读，写入，追加等2.enumerate() 函数的用法enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引...

2018-07-27 14:47:37 134

转载 HDFS的基本命令

转载自 https://blog.csdn.net/zhaojw_420/article/details/53161624 HDFS常用命令：注：以下执行命令均在spark安装目录的bin目录下。 path 为路径 src为文件路径 dist 为文件夹 1、-help[cmd] 显示命令的帮助信息./hdfs dfs -help ls 2、-ls(r) 显示当前目录下的...

2018-07-25 14:55:07 294

原创 Redis2.8.3的启动、状态检查、关闭

启动redis-server ./redis-server /usr/local/src/redis-2.8.3/redis.conf ps -ef |grep redis检查后台进程是否正在运行ps -ef | grep redis #检测6379端口是否在监听netstat -lntp | grep 6379 ...

2018-07-24 10:39:53 1455

转载 Redis安装过程

转自https://www.cnblogs.com/jerrylz/p/5650213.html一、Redis入门概述　　1、是什么？　　　　（1）全称：REmote DIctionary Server（远程字典服务器）。是完全开源免费的，用C语言编写的，遵守BCD协议。是一个高性能的(key/value)分布式内存数据库，基于内存运行并支持持久化的NoSQL数据库，是当前最热门...

2018-07-22 08:38:25 137

空空如也

sqlserver如何读取文件夹下的某个文件，该文件名每天都会变化的。

关于#mysql#的问题：数据库为mysql8，现在想把starttime的下一个值更新到endtime里面，即starttime的下一个值作为endtime的上一个值