自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(57)
  • 资源 (11)
  • 收藏
  • 关注

原创 Zookeeper占坑

等待更新中

2020-08-27 15:02:55 262

原创 Flink学习笔记汇总

之前的一些Flink笔记,在这里与大家分享。1.savepoint checkpoint savepoint是checkpoint的一种特殊方式,手动保存,其实就是指针。savepoint不会过期,不会覆盖,除非手动删除。2.jobmanager相当于resource manager 一般生产会有2个 做ha3.OperatorChain的优点:(1)减少线程切换(2)减少序列化与反序列化(3)减少数据在缓冲区的交换(4)减少延迟并且提高吞吐能力 Operator...

2020-06-15 11:29:09 921

转载 使用zipwithindex 算子给dataframe增加自增列 row_number函数实现自增,udf函数实现自增

DataFrame df = ...StructType schema = df.schema().add(DataTypes.createStructField("id", DataTypes.LongType, false));使用RDD的zipWithIndex得到索引,作为ID值:JavaRDD<Row> rdd = df.javaRDD() // 转为JavaRDD...

2020-04-15 15:49:26 1105

转载 nginx中的root与alias的差别

格式nginx指定文件路径有两种方式root和alias,指令的使用方法和作用域:[root]语法:root path默认值:root html配置段:http、server、location、if[alias]语法:alias path配置段:locationroot与alias主要区别在于nginx如何解释location后面的uri,这会使两者分别以不同的方式将请求映射...

2020-04-15 00:45:50 247

原创 报错:com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Unknown column 'NaN' in 'field list'

今天只是在计算留存率的代码中添加了一个条件,结果报错如下:Log Type: stderrLog Upload Time: 6-Dec-2019 13:18:45Log Length: 12549SLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/data6/yar...

2019-12-06 17:16:30 841

原创 indexOf 与 lastIndexOf

indexOf 和 lastIndexOf 是什么?   indexOf 和 lastIndexOf 都是索引文件   indexOf是查某个指定的字符串在字符串首次出现的位置(索引值)(也就是从前往后查) lastIndexOf是从右向左查某个指定的字符串在字符串中最后一次出现的位置(也就是从后往前查) eg: 注意:   那么问题...

2019-11-07 15:22:36 1136

原创 sqlContext.udf.register( ) 的作用

SparkSQL UDF两种注册方式:udf() 和 register()调用sqlContext.udf.register()此时注册的方法 只能在sql()中可见,对DataFrame API不可见用法:sqlContext.udf.register("makeDt", makeDT(_:String,_:String,_:String))例如:def make...

2019-11-07 15:12:48 1392

原创 zeppelin重启

zeppelin重启注意:在zeppelin重启之前,最好和其他同事确认下是否有人正在使用,或者在YARN上查看相关Spark任务是否有active stage。重启步骤:首先进入bigdata-appsvr-xxx-x主机,切换至hadoop用户1.停止zeppelin servercd /opt/zeppelinbin/zeppelin-daemon.sh sto...

2019-11-05 10:03:40 2145

原创 在hive中创建表时报错: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaExcept

重看笔记时发现以前记录的报错在hive中创建表时报错:Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:Got exception: java.net.ConnectException Call From Spark11/192.168.59.1...

2019-11-04 10:49:18 514

转载 random.nextInt()与Math.random()基础用法

1、来源random.nextInt() 为 java.util.Random类中的方法;Random类中还提供各种类型随机数的方法:nextInt():返回一个随机整数(int)nextInt(intn):返回大于等于0、小于n的随机整数(int)nextLong():返回一个随机长整型值(long)nextBoolean():返回一个随机布尔型值(bo...

2019-10-21 17:14:46 856

原创 报错信息:java.sql.SQLException: Field 'id' doesn't have a default value

今天写的程序报了一个错误,报错代码如下:ERROR 2019-10-16 15:14:47,797 Logging$class:logError - User class threw exception: java.sql.SQLException: Field 'id' doesn't have a default valuejava.sql.SQLException: Field 'i...

2019-10-16 15:45:37 782 1

原创 coursera视频无法播放 视频加载不出来

Coursera是国外的一款非常有名的公开课网站,今天在coursera上看个课程,发现看不了,特意在网上搜集了解决方案,亲测有效,记录下来。首先,在文件夹地址栏中输入C:\Windows\System32\drivers\etc,找到hosts文件。用管理员权限记事本打开hosts文件(以文本格式打开hosts就好)将如下内容复制到文件末尾:52.84.246.90 ...

2019-07-25 22:15:43 3008

原创 Idea--Webstorm报错java.io.IOException: Couldn't create PTY解决方案

Webstorm的Terminal无法使用,一打开就报错java.io.IOException: Couldn't create PTY,一般这种情况,如果cmd没有问题,那就是webstorm问题,就像一般资料所说,将webstorm使用管理员权限打开即可,如下图所示:然后打开webstorm,一般来说,如此webstorm的Terminal控制台就能使用了。但是如果这样还是然并...

2019-07-25 01:13:47 1150

转载 Nexus Repository Manager 3 私服搭建 —— windows版

-------------------------------------------------Started Sonatype Nexus OSS 3.13.0-01-------------------------------------------------

2019-07-23 19:38:59 535 2

原创 SQL在线练习 工具

一:地址是:http://sqlfiddle.com/二:http://zh.sqlzoo.net/wiki/SELECT_basics/zh三:http://www.w3school.com.cn/sql/速查基础SQL命令,快速理解SQL命令的含义和使用方法。最后做一下SQL测试,看看是否建立了基本的SQL概念。无需注册。四:https://sqlbolt.com/...

2019-07-22 11:38:36 10142 2

原创 调度系统对比 azkaban&airFlow&Oozie&zeus&rundeck

azkaban airFlow Oozie zeus rundeck 背景 Azkaban是由Linkedin开源的一个批量工作流任务调度器。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界...

2019-07-17 22:54:54 3958

转载 MYSQL round()函数

在mysql中,round函数用于数据的四舍五入,它有两种形式:1、round(x,d) ,x指要处理的数,d是指保留几位小数这里有个值得注意的地方是,d可以是负数,这时是指定小数点左边的d位整数位为0,同时小数位均为0;2、round(x) ,其实就是round(x,0),也就是默认d为0;下面是几个实例1、查询:select round(1123.26723,2);...

2019-07-17 11:27:37 46902 1

转载 git 换行符LF与CRLF转换问题 IDE的默认换行符设置为LF

在各操作系统下,文本文件所使用的换行符是不一样的。UNIX/Linux 使用的是 0x0A(LF),早期的 Mac OS 使用的是0x0D(CR),后来的 OS X 在更换内核后与 UNIX 保持一致了。但 DOS/Windows 一直使用 0x0D0A(CRLF)作为换行符。Git提供了一个“换行符自动转换”功能。这个功能默认处于“自动模式”,当你在签出文件时,它试图将 UNIX 换行符(LF)...

2019-07-16 11:21:02 4777

转载 Hadoop中的ProxyUser

PROXYUSER介绍和应用场景Hadoop2.0版本开始支持ProxyUser的机制。含义是使用User A的用户认证信息,以User B的名义去访问hadoop集群。对于服务端来说就认为此时是User B在访问集群,相应对访问请求的鉴权(包括HDFS文件系统的权限,YARN提交任务队列的权限)都以用户User B来进行。User A被认为是superuser(这里super user并不等...

2019-07-11 19:36:43 9100 1

原创 请问在mysql中int和bigint差别有多大?在什么情况下需要用到bigint?

请问在mysql中int和bigint差别有多大?在什么情况下需要用到bigint?bigint带符号的范围是-9223372036854775808到9223372036854775807。无符号的范围是0到18446744073709551615。int普通大小的整数。带符号的范围是-2147483648到2147483647。无符号的范围是0到4294967295。就是值得范围...

2019-07-10 10:51:16 14708

转载 mysql中bigint、int、mediumint、smallint与tinyint的取值范围

下面对bigint、int、mediumint、smallint与tinyint的取值范围作简单总结,以备查看。1、bigint从 -2^63 (-9223372036854775808) 到 2^63-1 (9223372036854775807) 的整型数据(所有数字),无符号的范围是0到18446744073709551615。一位为 8 个字节。2、int一个正常大小整数。有符...

2019-07-10 10:49:40 687

转载 parquet简单介绍与总结

==>什么是parquetParquet是列式存储的一种文件类型==>官网描述:Apache Parquet is a columnar storage format available to any project in the Hadoop ecosystem, regardless of the choice ...

2019-07-10 10:38:26 397

原创 什么是 openAPI ?

OpenAPI 是什么?Open API 即开放 API,也称开放平台。 所谓的开放 API(OpenAPI)是服务型网站常见的一种应用,网站的服务商将自己的网站服务封装成一系列API(Application Programming Interface,应用编程接口)开放出去,供第三方开发者使用,这种行为就叫做开放网站的 API,所开放的 API 就被称作 OpenAPI(开放 API )。...

2019-07-09 16:24:56 99122 3

转载 【CDN学习笔记4】CDN缓存刷新与预热的区别

http://doc.moretv.com.cn/pages/viewpage.action?pageId=31263133刷新:淘汰旧文件,重新获取文件的新版本当文件有跟新时,需要手动执行刷新操作,将CDN中缓存的历史版本设置为超时,并从源站获取最新的版本。刷新操作相对于一个触发更新的动作。如果不刷会有啥问题呢? 用户在访问URL时,命中的是CDN中的旧数据。因为CDN在全国的节点是...

2019-07-09 14:05:30 3037

转载 连接MYSQL时,主机名为 localhost 和 127.0.0.1 的区别

连接MYSQL时,主机名为 localhost 和 127.0.0.1 的区别1、localhost也叫local ,正确的解释是:本地服务器,localhot(local)是不经网卡传输!这点很重要,它不受网络防火墙和网卡相关的的限制。2、127.0.0.1在windows等系统的正确解释是:本机地址(本机服务器),127.0.0.1是通过网卡传输,依赖网卡,并受到网络防火墙和网卡相关的限制...

2019-05-11 20:57:24 2733

原创 Hive UDAF和UDTF实现group by后获取top值

先自定义一个UDAF,由于udaf是多输入一条输出的聚合,所以结果拼成字符串输出,代码如下:public class Top4GroupBy extends UDAF { //定义一个对象用于存储数据 public static class State { private Map&lt;Text, IntWritable&gt; counts; ...

2019-01-03 13:23:11 1034

原创 Hive-UDF&GenericUDF&Hive-UDTF&Hive-UDAF

hive udf简介在Hive中,用户可以自定义一些函数,用于扩展HiveQL的功能,而这类函数叫做UDF(用户自定义函数)。UDF分为两大类:UDAF(用户自定义聚合函数)和UDTF(用户自定义表生成函数)。在介绍UDAF和UDTF实现之前,我们先在本章介绍简单点的UDF实现——UDF和GenericUDF,然后以此为基础在下一章介绍UDAF和UDTF的实现。Hive有两个不同的接口编写...

2019-01-03 13:19:06 1626 1

转载 HIVE_UDF函数小例子

UDTF: 一进多出即一个输入,多个输出。UDTF(User-Defined Table-Generating Function)支持一个输入多个输出,一般用于解析工作,比如说解析url,然后获取url中的信息编码:继承GenericUDTF,实现方法:initializa(返回返回值的参数类型)、process具体的处理方法,一般在这个方法中会调用父类的forward方法进行数据...

2019-01-03 11:07:59 516

转载 Hive collect、explode函数详解(包括concat、Lateral View)

转自https://blog.csdn.net/Abysscarry/article/details/81505953背景: 最近需要对业务系统数据进行ETL,供机器学习训练,我们需要对数据进行关联聚合,多行或多列数据转换为单行单列这种操作很常见;正好hive提供collect函数可以实现这种格式需求,我们在这整理下用法,顺便扩展一下~一、collect_set 和 collect_li...

2019-01-03 11:02:11 742

原创 题目:使用UDF函数统计出flow.dat日志文件当中每个网站的浏览次数

  一:编写MapReduce程序清洗数据  我们需要的是统计日志文件中每个网站的浏览次数,为了方便起见,我们只取网站这一列数据。取出网站数据的这一操作就在map中进行,在reduce中无需对数据做处理。源码:MyMapper类package com.WebsiteCount;import java.io.IOException;import org.apache...

2019-01-03 10:56:27 365

转载 Maven命令行使用:mvn clean package(打包)

转自:https://www.cnblogs.com/frankyou/p/6062179.html先把命令行切换到Maven项目的根目录,比如:/d/xxxwork/java/maven-test,然后执行命令: mvn clean package执行结果如下:[INFO] Scanning for projects...[INFO][INFO] -----------...

2019-01-02 19:10:03 34482 1

原创 使用mapreduce 将hdfs中的数据导入到到hbase 中

package hbase;import java.text.SimpleDateFormat;import java.util.Date;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.client.Put;import org.apache.hadoop.hbase.mapre...

2018-12-10 21:25:12 952

原创 Hadoop集群和Hbabse与Zookeeper 启动与关闭需要注意的问题

1:hadoop、ZooKeeper和HBase之间应该按照顺序启动和关闭:启动Hadoop—&gt;启动ZooKeeper集群     —&gt;启动HBase—&gt;停止HBase—&gt;停止ZooKeeper集群—&gt;停止Hadoop。2:怎么启动zookeeper:启动zookeeper在每台机器上运行 bin/zkServer.sh start查看运行状态:bin...

2018-12-10 21:19:15 2728

原创 crontab命令使用文档

基本格式 :*  *  *  *  *  command分 时 日 月 周 命令第1列表示分钟1~59 每分钟用*或者 */1表示第2列表示小时1~23(0表示0点)第3列表示日期1~31第4列表示月份1~12第5列标识号星期0~6(0表示星期天)第6列要运行的命令crontab文件的一些例子:30 21 * * * /usr/local/etc/rc.d/...

2018-12-10 21:11:50 335

原创 solr 初步学习代码笔记

FILTER QUERY(fq):过滤查询,查询的内容会被缓存。sort:排序fl:字段列表df:默认查询字段(text)只要在text这个查询字段中,都可以查询出来相关的字段。copyfile:若直接写字段而不加字段类型的话,默认从text中取相关的字段。indent :是否格式化debugQuery:调试查询hl:高亮facet:分组统计类似于sql中的...

2018-12-10 20:47:04 223

原创 zookeeper和kafka的启动和关闭顺序

一定要先启动ZooKeeper 再启动Kafka 顺序不可以改变。先关闭kafka ,再关闭zookeeper。 zookeeper启动:分别在三台机器上执行:zkServer.sh start检查ZooKeeper状态:zkServer.sh status关闭:zkServer.sh stop kafka启动(注意必须在kafka的安装主目录下面执行该命令)...

2018-12-10 20:30:16 11300 2

原创 二叉树按层遍历 基于图的宽度优先搜索的应用 二叉树的序列化和反序列化

:这其实是图的宽度优先搜索的应用。比如这棵树按层遍历的结果为:1 2 3 4 5 6 7 8  也就是一层一层按从左到右的顺序打印,这种遍历的方式是用我们熟悉的队列来实现的,但是在面试中,往往要求面试者在按层打印的时候连同行号相关的信息也打印出来。案例二:这道题的难点是如何该换行?其实只需要2个变量,last和nlast,就可以解决这个问题。假设每一层都做从左到右的...

2018-12-10 20:25:30 331

原创 hive 报错:Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(me

创建hive表时报如下错Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:Got exception: java.net.ConnectException Call From Spark11/192.168.xx.xxxto Spark1:9000 ...

2018-12-09 20:24:03 1130

原创 使用hive 的时候 显示拒绝连接???

使用hive 的时候 显示拒绝连接???解决方法:其实就是mysql远程访问权限问题,也可以赋予远程访问权限[sql] view plain copyhadoop@ubuntu:~$ mysql -uroot -pmysql  mysql&gt; CREATE USER 'hive' IDENTIFIED BY 'mysql';  mysql&gt; GRANT ALL PRIVILE...

2018-11-27 12:00:06 5478

原创 java代码的MapReduce打包成jar 报错: JAVA程序运行时出现:Exception in thread "main" java.lang.ArrayIndexOutOfBoundsEx

以前的学习笔记,整理一下:java代码的MapReduce打包成jar报错:JAVA程序运行时出现:Exception in thread "main" java.lang.ArrayIndexOutOfBoundsException: 0 at PrintWhat.main(PrintWhat.java:14)?改正:命令行输入时没有输入参数。命令行输入时没有输入参数。----...

2018-11-27 11:58:55 1951

SQL语句大全大全(经典珍藏版).rar

--数据操作 SELECT --从数据库表中检索数据行和列 INSERT --向数据库表添加新数据行 DELETE --从数据库表中删除数据行 UPDATE --更新数据库表中的数据

2019-07-22

Tableau数据可视化从入门到精通@www.java1234.com.rar

Tableau数据可视化从入门到精通@www.java1234.com Tableau可以帮助人们将数据转化为可以付诸行动的见解,探索无 所不能的可视化分析,只需点击几下即可构建仪表板,进行即兴分析, 与任何人共享自己的工作成果。

2019-07-22

MYSQL必知必会(文字版)作者:Ben Forta 福塔 著 译:刘晓霞 钟鸣.rar

MySQL 是世界上最受欢迎的数据库管理系统之一。书中从介绍简单的数据 检索开始,逐步深入一些复杂的内容,包括联结的使用、子查询、正则表达式 和基于全文本的搜索、存储过程、游标、触发器、表约束,等等。通过重点突 出的章节,条理清晰、系统而扼要地讲述了读者应该掌握的知识,使他们不经 意间立刻功力大增。

2019-07-22

Scala语言规范.pdf

《Scala语言规范》非常有利于spark的学习。希望能够帮助到大家。

2018-12-10

Java编程思想第四版完整中文高清版.pdf

《Java编程思想第四版完整中文高清版》对于Java的学习非常有帮助。

2018-12-10

MongoDB权威指南中文版

MongoDB权威指南中文版.pfd 对于MongoDB的学习非常有帮助。

2018-12-10

深入云计算 MongoDB管理与开发实战详解

pdf文档mongodnb学习 深入云计算 MongoDB管理与开发实战详解.pdf

2018-12-10

scala-2.11.7.msi的安装版本

scala安装包的资源 下载后根据安装向导提示安装即可,希望能对你们的学习有所帮助。

2018-10-11

java的一个用户登录的项目

简单的一个用户登录的小项目,朋友们可以尝试使用一下。

2018-05-24

hbase_0.98.13-hadoop2-bin.tar.gz

hbase_0.98.13-hadoop2-bin.tar.gz的相关包。希望能解决你们的问题。

2018-05-24

数据结构 迷宫设计

数据结构的迷宫设计及代码详解 注释全面

2017-06-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除