Ynzo-CSDN博客

之前的一些Flink笔记，在这里与大家分享。1.savepoint checkpoint savepoint是checkpoint的一种特殊方式，手动保存,其实就是指针。savepoint不会过期，不会覆盖，除非手动删除。2.jobmanager相当于resource manager 一般生产会有2个做ha3.OperatorChain的优点：（1）减少线程切换（2）减少序列化与反序列化（3）减少数据在缓冲区的交换（4）减少延迟并且提高吞吐能力 Operator...

2020-06-15 11:29:09 1035

转载使用zipwithindex 算子给dataframe增加自增列 row_number函数实现自增，udf函数实现自增

DataFrame df = ...StructType schema = df.schema().add(DataTypes.createStructField("id", DataTypes.LongType, false));使用RDD的zipWithIndex得到索引，作为ID值：JavaRDD<Row> rdd = df.javaRDD() // 转为JavaRDD...

2020-04-15 15:49:26 1189

转载 nginx中的root与alias的差别

格式nginx指定文件路径有两种方式root和alias，指令的使用方法和作用域：[root]语法：root path默认值：root html配置段：http、server、location、if[alias]语法：alias path配置段：locationroot与alias主要区别在于nginx如何解释location后面的uri，这会使两者分别以不同的方式将请求映射...

2020-04-15 00:45:50 312

原创报错：com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Unknown column 'NaN' in 'field list'

今天只是在计算留存率的代码中添加了一个条件，结果报错如下：Log Type: stderrLog Upload Time: 6-Dec-2019 13:18:45Log Length: 12549SLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/data6/yar...

2019-12-06 17:16:30 992

原创 indexOf 与 lastIndexOf

indexOf 和 lastIndexOf 是什么？　　indexOf 和 lastIndexOf 都是索引文件　　indexOf是查某个指定的字符串在字符串首次出现的位置（索引值）（也就是从前往后查） lastIndexOf是从右向左查某个指定的字符串在字符串中最后一次出现的位置（也就是从后往前查） eg：注意：　　那么问题...

2019-11-07 15:22:36 1318

原创 sqlContext.udf.register( ) 的作用

SparkSQL UDF两种注册方式：udf() 和 register()调用sqlContext.udf.register()此时注册的方法只能在sql()中可见，对DataFrame API不可见用法：sqlContext.udf.register("makeDt", makeDT(_:String,_:String,_:String))例如：def make...

2019-11-07 15:12:48 1481

原创 zeppelin重启

zeppelin重启注意：在zeppelin重启之前，最好和其他同事确认下是否有人正在使用，或者在YARN上查看相关Spark任务是否有active stage。重启步骤：首先进入bigdata-appsvr-xxx-x主机，切换至hadoop用户1.停止zeppelin servercd /opt/zeppelinbin/zeppelin-daemon.sh sto...

2019-11-05 10:03:40 2308

原创在hive中创建表时报错： Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaExcept

重看笔记时发现以前记录的报错在hive中创建表时报错：Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:Got exception: java.net.ConnectException Call From Spark11/192.168.59.1...

2019-11-04 10:49:18 592

转载 random.nextInt()与Math.random()基础用法

1、来源random.nextInt() 为 java.util.Random类中的方法；Random类中还提供各种类型随机数的方法：nextInt()：返回一个随机整数(int)nextInt(intn)：返回大于等于0、小于n的随机整数(int)nextLong()：返回一个随机长整型值(long)nextBoolean()：返回一个随机布尔型值(bo...

2019-10-21 17:14:46 989

原创报错信息：java.sql.SQLException: Field 'id' doesn't have a default value

今天写的程序报了一个错误，报错代码如下：ERROR 2019-10-16 15:14:47,797 Logging$class:logError - User class threw exception: java.sql.SQLException: Field 'id' doesn't have a default valuejava.sql.SQLException: Field 'i...

2019-10-16 15:45:37 894 1

原创 coursera视频无法播放视频加载不出来

Coursera是国外的一款非常有名的公开课网站，今天在coursera上看个课程，发现看不了，特意在网上搜集了解决方案，亲测有效，记录下来。首先，在文件夹地址栏中输入C:\Windows\System32\drivers\etc，找到hosts文件。用管理员权限记事本打开hosts文件（以文本格式打开hosts就好）将如下内容复制到文件末尾：52.84.246.90 ...

2019-07-25 22:15:43 3104

原创 Idea--Webstorm报错java.io.IOException: Couldn't create PTY解决方案

Webstorm的Terminal无法使用，一打开就报错java.io.IOException: Couldn't create PTY，一般这种情况，如果cmd没有问题，那就是webstorm问题，就像一般资料所说，将webstorm使用管理员权限打开即可，如下图所示：然后打开webstorm，一般来说，如此webstorm的Terminal控制台就能使用了。但是如果这样还是然并...

2019-07-25 01:13:47 1239

转载 Nexus Repository Manager 3 私服搭建 —— windows版

-------------------------------------------------Started Sonatype Nexus OSS 3.13.0-01-------------------------------------------------

2019-07-23 19:38:59 658 2

原创 SQL在线练习工具

一：地址是：http://sqlfiddle.com/二：http://zh.sqlzoo.net/wiki/SELECT_basics/zh三：http://www.w3school.com.cn/sql/速查基础SQL命令，快速理解SQL命令的含义和使用方法。最后做一下SQL测试，看看是否建立了基本的SQL概念。无需注册。四：https://sqlbolt.com/...

2019-07-22 11:38:36 10774 2

原创调度系统对比 azkaban&airFlow&Oozie&zeus&rundeck

azkaban airFlow Oozie zeus rundeck 背景 Azkaban是由Linkedin开源的一个批量工作流任务调度器。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系，并提供一个易于使用的web用户界...

2019-07-17 22:54:54 4150

转载 MYSQL round()函数

在mysql中，round函数用于数据的四舍五入，它有两种形式：1、round(x,d) ，x指要处理的数，d是指保留几位小数这里有个值得注意的地方是，d可以是负数，这时是指定小数点左边的d位整数位为0,同时小数位均为0；2、round(x) ,其实就是round(x,0),也就是默认d为0；下面是几个实例1、查询:select round(1123.26723,2);...

2019-07-17 11:27:37 47072 1

转载 git 换行符LF与CRLF转换问题 IDE的默认换行符设置为LF

在各操作系统下，文本文件所使用的换行符是不一样的。UNIX/Linux 使用的是 0x0A（LF），早期的 Mac OS 使用的是0x0D（CR），后来的 OS X 在更换内核后与 UNIX 保持一致了。但 DOS/Windows 一直使用 0x0D0A（CRLF）作为换行符。Git提供了一个“换行符自动转换”功能。这个功能默认处于“自动模式”，当你在签出文件时，它试图将 UNIX 换行符（LF）...

2019-07-16 11:21:02 5036

转载 Hadoop中的ProxyUser

PROXYUSER介绍和应用场景Hadoop2.0版本开始支持ProxyUser的机制。含义是使用User A的用户认证信息，以User B的名义去访问hadoop集群。对于服务端来说就认为此时是User B在访问集群，相应对访问请求的鉴权（包括HDFS文件系统的权限，YARN提交任务队列的权限）都以用户User B来进行。User A被认为是superuser（这里super user并不等...

2019-07-11 19:36:43 9746 2

原创请问在mysql中int和bigint差别有多大？在什么情况下需要用到bigint？

请问在mysql中int和bigint差别有多大？在什么情况下需要用到bigint？bigint带符号的范围是-9223372036854775808到9223372036854775807。无符号的范围是0到18446744073709551615。int普通大小的整数。带符号的范围是-2147483648到2147483647。无符号的范围是0到4294967295。就是值得范围...

2019-07-10 10:51:16 14812

转载 mysql中bigint、int、mediumint、smallint与tinyint的取值范围

下面对bigint、int、mediumint、smallint与tinyint的取值范围作简单总结，以备查看。1、bigint从 -2^63 (-9223372036854775808) 到 2^63-1 (9223372036854775807) 的整型数据（所有数字），无符号的范围是0到18446744073709551615。一位为 8 个字节。2、int一个正常大小整数。有符...

2019-07-10 10:49:40 771

转载 parquet简单介绍与总结

==>什么是parquetParquet是列式存储的一种文件类型==>官网描述：Apache Parquet is a columnar storage format available to any project in the Hadoop ecosystem, regardless of the choice ...

2019-07-10 10:38:26 528

原创什么是 openAPI ?

OpenAPI 是什么?Open API 即开放 API，也称开放平台。所谓的开放 API（OpenAPI）是服务型网站常见的一种应用，网站的服务商将自己的网站服务封装成一系列API（Application Programming Interface，应用编程接口）开放出去，供第三方开发者使用，这种行为就叫做开放网站的 API，所开放的 API 就被称作 OpenAPI（开放 API ）。...

2019-07-09 16:24:56 104053 3

转载【CDN学习笔记4】CDN缓存刷新与预热的区别

http://doc.moretv.com.cn/pages/viewpage.action?pageId=31263133刷新：淘汰旧文件，重新获取文件的新版本当文件有跟新时，需要手动执行刷新操作，将CDN中缓存的历史版本设置为超时，并从源站获取最新的版本。刷新操作相对于一个触发更新的动作。如果不刷会有啥问题呢? 用户在访问URL时，命中的是CDN中的旧数据。因为CDN在全国的节点是...

2019-07-09 14:05:30 3292

转载连接MYSQL时，主机名为 localhost 和 127.0.0.1 的区别

连接MYSQL时，主机名为 localhost 和 127.0.0.1 的区别1、localhost也叫local ，正确的解释是:本地服务器，localhot(local)是不经网卡传输！这点很重要，它不受网络防火墙和网卡相关的的限制。2、127.0.0.1在windows等系统的正确解释是:本机地址(本机服务器)，127.0.0.1是通过网卡传输，依赖网卡，并受到网络防火墙和网卡相关的限制...

2019-05-11 20:57:24 2976

原创 Hive UDAF和UDTF实现group by后获取top值

先自定义一个UDAF,由于udaf是多输入一条输出的聚合，所以结果拼成字符串输出，代码如下：public class Top4GroupBy extends UDAF { //定义一个对象用于存储数据 public static class State { private Map<Text, IntWritable> counts; ...

2019-01-03 13:23:11 1144

原创 Hive-UDF&GenericUDF&Hive-UDTF&Hive-UDAF

hive udf简介在Hive中，用户可以自定义一些函数，用于扩展HiveQL的功能，而这类函数叫做UDF（用户自定义函数）。UDF分为两大类：UDAF（用户自定义聚合函数）和UDTF（用户自定义表生成函数）。在介绍UDAF和UDTF实现之前，我们先在本章介绍简单点的UDF实现——UDF和GenericUDF，然后以此为基础在下一章介绍UDAF和UDTF的实现。Hive有两个不同的接口编写...

2019-01-03 13:19:06 1770 1

转载 HIVE_UDF函数小例子

UDTF: 一进多出即一个输入，多个输出。UDTF(User-Defined Table-Generating Function)支持一个输入多个输出,一般用于解析工作,比如说解析url,然后获取url中的信息编码:继承GenericUDTF,实现方法:initializa(返回返回值的参数类型)、process具体的处理方法,一般在这个方法中会调用父类的forward方法进行数据...

2019-01-03 11:07:59 568

转载 Hive collect、explode函数详解（包括concat、Lateral View）

转自https://blog.csdn.net/Abysscarry/article/details/81505953背景：最近需要对业务系统数据进行ETL，供机器学习训练，我们需要对数据进行关联聚合，多行或多列数据转换为单行单列这种操作很常见；正好hive提供collect函数可以实现这种格式需求，我们在这整理下用法，顺便扩展一下~一、collect_set 和 collect_li...

2019-01-03 11:02:11 841

原创题目：使用UDF函数统计出flow.dat日志文件当中每个网站的浏览次数

一：编写MapReduce程序清洗数据我们需要的是统计日志文件中每个网站的浏览次数，为了方便起见，我们只取网站这一列数据。取出网站数据的这一操作就在map中进行，在reduce中无需对数据做处理。源码：MyMapper类package com.WebsiteCount;import java.io.IOException;import org.apache...

2019-01-03 10:56:27 440

转载 Maven命令行使用：mvn clean package（打包）

转自：https://www.cnblogs.com/frankyou/p/6062179.html先把命令行切换到Maven项目的根目录，比如：/d/xxxwork/java/maven-test，然后执行命令： mvn clean package执行结果如下：[INFO] Scanning for projects...[INFO][INFO] -----------...

2019-01-02 19:10:03 34732 1

原创使用mapreduce 将hdfs中的数据导入到到hbase 中

package hbase;import java.text.SimpleDateFormat;import java.util.Date;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.client.Put;import org.apache.hadoop.hbase.mapre...

2018-12-10 21:25:12 1031

原创 Hadoop集群和Hbabse与Zookeeper 启动与关闭需要注意的问题

1：hadoop、ZooKeeper和HBase之间应该按照顺序启动和关闭：启动Hadoop—>启动ZooKeeper集群 —>启动HBase—>停止HBase—>停止ZooKeeper集群—>停止Hadoop。2：怎么启动zookeeper:启动zookeeper在每台机器上运行 bin/zkServer.sh start查看运行状态:bin...

2018-12-10 21:19:15 2980

原创 crontab命令使用文档

基本格式 :* * * * * command分时日月周命令第1列表示分钟1～59 每分钟用*或者 */1表示第2列表示小时1～23（0表示0点）第3列表示日期1～31第4列表示月份1～12第5列标识号星期0～6（0表示星期天）第6列要运行的命令crontab文件的一些例子：30 21 * * * /usr/local/etc/rc.d/...

2018-12-10 21:11:50 422

原创 solr 初步学习代码笔记

FILTER QUERY（fq）:过滤查询,查询的内容会被缓存。sort：排序fl:字段列表df:默认查询字段(text)只要在text这个查询字段中,都可以查询出来相关的字段。copyfile:若直接写字段而不加字段类型的话，默认从text中取相关的字段。indent ：是否格式化debugQuery:调试查询hl:高亮facet：分组统计类似于sql中的...

2018-12-10 20:47:04 305

原创 zookeeper和kafka的启动和关闭顺序

一定要先启动ZooKeeper 再启动Kafka 顺序不可以改变。先关闭kafka ，再关闭zookeeper。 zookeeper启动：分别在三台机器上执行：zkServer.sh start检查ZooKeeper状态：zkServer.sh status关闭：zkServer.sh stop kafka启动（注意必须在kafka的安装主目录下面执行该命令）...

2018-12-10 20:30:16 11611 2

原创二叉树按层遍历基于图的宽度优先搜索的应用二叉树的序列化和反序列化

：这其实是图的宽度优先搜索的应用。比如这棵树按层遍历的结果为：1 2 3 4 5 6 7 8 也就是一层一层按从左到右的顺序打印，这种遍历的方式是用我们熟悉的队列来实现的，但是在面试中，往往要求面试者在按层打印的时候连同行号相关的信息也打印出来。案例二：这道题的难点是如何该换行？其实只需要2个变量，last和nlast,就可以解决这个问题。假设每一层都做从左到右的...

2018-12-10 20:25:30 417

原创 hive 报错：Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(me

创建hive表时报如下错Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:Got exception: java.net.ConnectException Call From Spark11/192.168.xx.xxxto Spark1:9000 ...

2018-12-09 20:24:03 1232

原创使用hive 的时候显示拒绝连接？？？

使用hive 的时候显示拒绝连接？？？解决方法：其实就是mysql远程访问权限问题，也可以赋予远程访问权限[sql] view plain copyhadoop@ubuntu:~$ mysql -uroot -pmysql mysql> CREATE USER 'hive' IDENTIFIED BY 'mysql'; mysql> GRANT ALL PRIVILE...

2018-11-27 12:00:06 5630

原创 java代码的MapReduce打包成jar 报错： JAVA程序运行时出现：Exception in thread "main" java.lang.ArrayIndexOutOfBoundsEx

以前的学习笔记，整理一下：java代码的MapReduce打包成jar报错：JAVA程序运行时出现：Exception in thread "main" java.lang.ArrayIndexOutOfBoundsException: 0 at PrintWhat.main(PrintWhat.java:14)？改正：命令行输入时没有输入参数。命令行输入时没有输入参数。----...

2018-11-27 11:58:55 2051