自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据流浪法师的学习笔记与分享

恭喜你发现宝藏博主,专注于【大数据】领域技术应用,兴趣是研究【机器智能】/【AI】/【大数据】。

  • 博客(492)
  • 资源 (1)
  • 收藏
  • 关注

原创 大数据书单分享

长期分享书单,记录看过的好书。最近更新日期:2020.11.22

2020-11-05 14:31:06 251

转载 前端项目中package.json的作用

每个项目的根目录下面,一般都有一个package.json文件,定义了这个项目所需要的各种模块,以及项目的配置信息(比如名称、版本、许可证等元数据)。npm install 命令根据这个配置文件,自动下载所需的模块,也就是配置项目所需的运行和开发环境。package.json文件可以手工编写,也可以使用npm init命令自动生成。package.json 中添加中文注释会编译出错数据含义:name:项目名称(必须)version:项目版本(必须)description:项目描述author

2020-11-22 16:46:33 15

原创 怎么查看前端项目中vue的版本号?

怎么查看前端项目中vue的版本号?找到package.json,找到dependencies,如下:这样就找到项目使用的vue的版本号了

2020-11-22 16:33:23 14

转载 PostgreSQL BETWEEN

BETWEEN没什么好说的,值得注意的有两点:1,可以用>,<,>=,<=等运算符来实现和BETWEEN、NOT BETWEEN一样的效果。2,比较日期值的格式: ISO 8601 format i.e., YYYY-MM-DD.例如:SELECT customer_id, payment_id, amount, payment_dateFROM paymentWHERE payment_date BETWEEN '2007-02-07' AND '2007-

2020-11-12 09:03:20 19

转载 PostgreSQL IN

先来看两个查询语句:SELECT customer_id, rental_id, return_dateFROM rentalWHERE customer_id IN (1, 2)ORDER BY return_date DESC;SELECT rental_id, customer_id, return_dateFROM rentalWHERE customer_id = 1 OR customer_id = 2ORDER BY return_date DESC;

2020-11-12 08:54:54 15

转载 PostgreSQL FETCH

LIMIT语句经常在许多关系型数据库中使用,比如MySQL,H2,HSQLDB。但是LIMIT语句不属于SQL标准。PostgreSQL提供了SQL标准的语句来替代LIMIT,它就是FETCH语句,它是在SQL:2008标准被提出来的。FETCH语法OFFSET start { ROW | ROWS }FETCH { FIRST | NEXT } [ row_count ] { ROW | ROWS } ONLYFIRST和NEXT是同义词,ROW和ROWS是同义词,同义词可以相互替换sta

2020-11-12 08:43:04 28

转载 PostgreSQL LIMIT

语法SELECT select_list FROM table_nameORDER BY sort_expressionLIMIT row_countrow_count值为0 则不返回语句,值为其它数字,则返回对应条数语句,值为NULL则LIMIT语句失效。跳过指定行再LIMIT的语法SELECT select_listFROM table_nameLIMIT row_count OFFSET row_to_skip;如果row_to_skip为0,则OFFSET语句失效。注意OF

2020-11-12 08:28:50 16

转载 PostgreSQL WHERE

语法SELECT select_listFROM table_nameWHERE conditionORDER BY sort_expressionWHERE出现在SELECT语句的字句FROM后面,WHERE使用条件判断来过滤SELECT语句返回的行。这里的条件判断值必须为TRUE 或 FALSE 或 UNKNOWN,它可以是一个返回逻辑值的表达式,也可以是由多个or或and构成的逻辑表达式。查询语句的返回值必须满足WHERE的条件判断,只有满足条件判断整体为真的值才能通过WHERE的过滤

2020-11-12 08:18:57 20

原创 datax-web Windows10以开发者模式部署

前言:目前在windows上只能以开发者模式部署一、下载Datax-web在github上搜datax-web,出来这个就是:我们选择2.1.2版本使用git或者打包下载都可以二、解压,配置MySQL数据库解压后是上面那个样子,首先运行需要一个本地的MySQL数据库E:\environment\datax-web-2.1.2\bin\db\datax_web.sql解压后的目录里bin目录的db目录下有个datax_web.sql打开之后可以看到,它只有建表语句,没有建库语句,而数据库名

2020-11-10 08:48:13 79

转载 Flink1.9 【Apache Kafka Connector】

原文地址:https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/connectors/kafka.html今天用到了Flink的Kafka连接器,用到的地方翻译一下,没用到的地方整理格式,方便复习。Apache Kafka Connector(Kafka连接器)This connector provides access to event streams served by Apa.

2020-11-04 08:21:06 53

转载 String的API用法

文章目录使用concat拼接字符串使用length获取字符串长度使用isEmpty判断字符串是否为空串(“”)使用equals判断字符串内容是否相同使用charAt获取字符串某个位子的字符使用contains判断字符串是否包含某个特定序列使用endsWith判断字符串是否以某个特定序列结尾使用equalsIgnoreCase判断字符串是否相同(不考虑大小写)使用indexOf获取某个字符或者字符串第一次出现的位置使用lastIndexOf获取某个字符或字符串最后出现的位置使用replace替换字符串中的特.

2020-11-02 08:02:01 23

原创 复习Java基础 笔记整理

内容超长警告!多图警告!最近发现Java基础不太牢固,回过头来把以前的笔记整理一下= =,内容有点多。。文章目录内容超长警告!多图警告!1,switch的具体使用方法2.怎么求次方3,static关键字有什么用?6,private和public有什么区别?有什么用?7,怎么理解java中的实例8,final关键字有什么用9,break的详细用法10,计数器思想是什么11,java的重写是什么12 ,java中父类与子类的关系及使用1,switch的具体使用方法2.怎么求次方导入java.

2020-10-31 22:38:18 40

转载 Leecode 部门工资前三高的所有员工

原题Employee 表包含所有员工信息,每个员工有其对应的工号 Id,姓名 Name,工资 Salary 和部门编号 DepartmentId 。+----+-------+--------+--------------+| Id | Name | Salary | DepartmentId |+----+-------+--------+--------------+| 1 | Joe | 85000 | 1 || 2 | Henry | 80000 |

2020-10-30 15:58:41 24

转载 Leecode 连续出现的数字

原题编写一个 SQL 查询,查找所有至少连续出现三次的数字。+----+-----+| Id | Num |+----+-----+| 1 | 1 || 2 | 1 || 3 | 1 || 4 | 2 || 5 | 1 || 6 | 2 || 7 | 2 |+----+-----+例如,给定上面的 Logs 表, 1 是唯一连续出现至少三次的数字。+-----------------+| ConsecutiveNums |+----

2020-10-30 14:56:43 19

转载 Leecode 分数排名

编写一个 SQL 查询来实现分数排名。如果两个分数相同,则两个分数排名(Rank)相同。请注意,平分后的下一个名次应该是下一个连续的整数值。换句话说,名次之间不应该有“间隔”。+----+-------+| Id | Score |+----+-------+| 1 | 3.50 || 2 | 3.65 || 3 | 4.00 || 4 | 3.85 || 5 | 4.00 || 6 | 3.65 |+----+-------+例如,根据上述给定的 Scor

2020-10-29 19:40:18 20

转载 Leecode 第N高的薪水

编写一个 SQL 查询,获取 Employee 表中第 n 高的薪水(Salary)。+----+--------+| Id | Salary |+----+--------+| 1 | 100 || 2 | 200 || 3 | 300 |+----+--------+例如上述 Employee 表,n = 2 时,应返回第二高的薪水 200。如果不存在第 n 高的薪水,那么查询应返回 null。+------------------------+| getN

2020-10-29 18:08:32 18

转载 Leecode 第二高的薪水

编写一个 SQL 查询,获取 Employee 表中第二高的薪水(Salary) 。+----+--------+| Id | Salary |+----+--------+| 1 | 100 || 2 | 200 || 3 | 300 |+----+--------+例如上述 Employee 表,SQL查询应该返回 200 作为第二高的薪水。如果不存在第二高的薪水,那么查询应返回 null。+---------------------+| SecondHig

2020-10-29 14:51:21 24

原创 Leecode 寻找右区间

原题给定一组区间,对于每一个区间 i,检查是否存在一个区间 j,它的起始点大于或等于区间 i 的终点,这可以称为 j 在 i 的“右侧”。对于任何区间,你需要存储的满足条件的区间 j 的最小索引,这意味着区间 j 有最小的起始点可以使其成为“右侧”区间。如果区间 j 不存在,则将区间 i 存储为 -1。最后,你需要输出一个值为存储的区间值的数组。注意:你可以假设区间的终点总是大于它的起始点。你可以假定这些区间都不具有相同的起始点。示例 1:输入: [ [1,2] ]输出: [-1]解释:

2020-10-29 14:35:20 15

原创 Leecode 特定深度节点链表

原题给定一棵二叉树,设计一个算法,创建含有某一深度上所有节点的链表(比如,若一棵树的深度为 D,则会创建出 D 个链表)。返回一个包含所有深度的链表的数组。示例:输入:[1,2,3,4,5,null,7,8] 1 / \ 2 3 / \ \ 4 5 7 / 8输出:[[1],[2,3],[4,5,7],[8]]/** * Definition for a binary tree node.

2020-10-29 11:03:34 35

转载 什么是二叉树?

二叉树基本概念

2020-10-29 09:17:24 46

原创 Leecode 组合两个表

原题表1: Person+-------------+---------+| 列名 | 类型 |+-------------+---------+| PersonId | int || FirstName | varchar || LastName | varchar |+-------------+---------+PersonId 是上表主键表2: Address+-------------+---------+| 列名

2020-10-29 08:14:33 19

原创 【TryFlink】【Real Time Reporting with the Table API】【Free】

【TryFlink】【Real Time Reporting with the Table API】【Free】

2020-10-28 09:18:01 33

原创 【TryFlink】 【Local Installation】【Free】

【TryFlink】 【Local Installation】【Free】

2020-10-27 23:16:34 25

原创 【TryFlink】【Fraud Detection with the DataStream API】【Java代码版】【Free】

【TryFlink】【Fraud Detection with the DataStream API】【Free】

2020-10-27 23:15:02 70

原创 Kafka知识点(二)

文章目录什么是Apache Kafka?什么是传统的消息传递方法?Kafka相对于传统的消息传递方法有什么优势?Kafka 如何保证消息的有序性?ISR、OSR、AR 是什么?6、LEO、HW、LSO、LW等分别代表什么?7、数据传输的事务有几种?8、Kafka 消费者是否可以消费指定分区消息?9、Kafka消息是采用Pull模式,还是Push模式?10、Kafka 高效文件存储设计特点?11、Kafka创建Topic时如何将分区放置到不同的Broker中?12、Kafka新建的分区会在哪个目录下创建?13

2020-10-26 20:45:08 23

原创 HBase知识点(三)

文章目录HBase的特点是什么?HBase和Hive的区别?HBase适用于怎样的情景?描述HBase的rowKey的设计原则?描述HBase中scan和get的功能以及实现的异同?请详细描述HBase中一个cell的结构?简述HBase中compact用途是什么,什么时候触发,分为哪两种,有什么区别,有哪些相关配置参数?每天百亿数据存入HBase,如何保证数据的存储正确和在规定的时间里全部录入完毕,不残留数据?Region如何预建分区?HRegionServer宕机如何处理?HBase读写流程?HBase

2020-10-26 17:59:26 45

原创 Hadoop知识点(一)

文章目录Hadoop为什么比传统技术方案快大数据有什么特点?hdfs的shell客户端操作命令分别代表什么意思?大数据能做什么?hdfs的主要功能什么?hadoop的垃圾桶机制在哪一个文件中配置的?垃圾桶配置参数是什么?启动jobHistoryserver服务进程的命令?jobhistoryserver的webUI访问的默认端口是什么?安装hadoop时需要配置的文件有哪些?首次启动 HDFS 时,必须对其进行格式化操作的命令?hadoop安装包目录包括哪些文件夹,各有什么作用?Hadoop 特性优点?Ha

2020-10-26 16:18:12 20

原创 Spark3.0.0 新加入的 解决数据倾斜的性能优化 Optimizing Skew Join

Spark3.x新加入的数据倾斜性能优化Optimizing Skew JoinData skew can severely downgrade the performance of join queries.数据倾斜会严重降低连接查询的性能。This feature dynamically handles skew in sort-merge join by splitting (and replicating if needed) skewed tasks into roughly evenly

2020-10-23 20:16:39 30

原创 Oozie学习笔记01

文章目录Oozie官方手册Oozie目录结构Oozie是hadoop的工作流引擎Oozie的QuickStart快速上手教程Oozie的开发者文档Action的扩展Job状态和SLA监控Oozie管理员手册Oozie其它东西Oozie官方手册Oozie4.1.0是我目前在学习的版本,下面的内容是对官方文档的目录做一个整体的认识,方便理清思路,再学习单独的模块http://oozie.apache.org/docs/4.1.0/index.htmlOozie目录结构Oozie是hadoop的工作流

2020-10-21 08:32:29 22

转载 Oozie 任务调度,定时任务执行,常用命令

使用oozie调度shell脚本oozie安装好了之后,需要测试oozie的功能是否完整好使,官方已经给我们带了各种测试案例,我们可以通过官方提供的各种案例来对oozie进行调度第一步:解压官方提供的调度案例oozie自带了各种案例,我们可以使用oozie自带的各种案例来作为模板,所以我们这里先把官方提供的各种案例给解压出来cd /export/servers/oozie-4.1.0-cdh5.14.0tar -zxf oozie-examples.tar.gz第二步:创建工作目录在.

2020-10-21 08:07:55 73

转载 Oozie 任务串联

文章目录第一步:准备工作目录第二步:准备调度文件第三步:开发调度的配置文件第四步:上传资源文件夹到hdfs对应路径第五步:执行调度任务在实际工作当中,肯定会存在多个任务需要执行,并且存在上一个任务的输出结果作为下一个任务的输入数据这样的情况,所以我们需要在workflow.xml配置文件当中配置多个action,实现多个任务之间的相互依赖关系需求:首先执行一个shell脚本,执行完了之后再执行一个MR的程序,最后再执行一个hive的程序第一步:准备工作目录cd /export/servers/ooz

2020-10-21 08:03:57 10

转载 Oozie使用03 使用oozie调度MR任务

文章目录第一步:准备MR执行的数据第二步:执行官方测试案例第三步:准备调度的资源第四步:拷贝的jar包到对应目录第五步:修改配置文件第六步:上传调度任务到hdfs对应目录第七步:执行调度任务第一步:准备MR执行的数据我们这里通过oozie调度一个MR的程序的执行,MR的程序可以是自己写的,也可以是hadoop工程自带的,我们这里就选用hadoop工程自带的MR程序来运行wordcount的示例准备以下数据上传到HDFS的/oozie/input路径hdfs dfs -mkdir -p /oozie/

2020-10-20 20:49:31 18

转载 Oozie使用02 使用oozie调度hive

文章目录第一步:拷贝hive的案例模板第二步:编辑hive模板第三步:上传工作文件到hdfs第四步:执行oozie的调度第五步:查看调度结果第一步:拷贝hive的案例模板cd /export/servers/oozie-4.1.0-cdh5.14.0cp -ra examples/apps/hive2/ oozie_works/第二步:编辑hive模板这里使用的是hiveserver2来进行提交任务,需要注意我们要将hiveserver2的服务给启动起来hive --service hives

2020-10-20 20:18:46 33

转载 Oozie使用01 使用oozie调度shell脚本

文章目录使用oozie调度shell脚本第一步:解压官方提供的调度案例第二步:创建工作目录第三步:拷贝任务模板到工作目录当中去第四步:随意准备一个shell脚本第五步:修改模板下的配置文件第六步:上传调度任务到hdfs上面去第七步:执行调度任务使用oozie调度shell脚本oozie安装好了之后,需要测试oozie的功能是否完整好使,官方已经给我们带了各种测试案例,我们可以通过官方提供的各种案例来对oozie进行调度第一步:解压官方提供的调度案例oozie自带了各种案例,我们可以使用oozie自带

2020-10-20 17:29:50 13

原创 Win10自动脚本:Maven下载失败后,清理下载失败的.lastUpdate文件

set REPOSITORY_PATH=D:\dev\apache-maven-3.3.9\repositoryrem 正在搜索...for /f "delims=" %%i in ('dir /b /s "%REPOSITORY_PATH%\*lastUpdated*"') do ( del /s /q %%i)rem 搜索完毕pause上面的D:\dev\apache-maven-3.3.9\repository改为你自己的maven路径,以上内容保存为.bat结尾的文件,双击运行

2020-10-17 17:14:06 19

原创 Scala SBT Simple Build Tool

如何学习scala?这是我总结的一些经验,在此记录以便复习。1,Scala官网(1)官网https://www.scala-lang.org/从官网上几乎可以了解到关于scala的大部分信息2,SBT(simple build tool)https://www.scala-sbt.org/index.html大部分人构建scala项目使用的工具SBT的操作手册,学习SBT就靠它https://www.scala-sbt.org/1.x/docs/index.htmlSBT的API文档h

2020-10-07 20:55:23 34

原创 POM文件报错的通用解决办法

1,版本报红这种情况是groupId可以找到,但是版本报红那可能是网络的问题,换个源,开个加速器实在不行把maven里关于这个groupID的所有jar包全删了重新下载2,整个报红这种情况就很难受,这个bug还没解决,但是解决的思路已经有了就是直接打开官网把它下载了,然后安装到仓库里也有可能根本不存在这个文件等我找到解决办法再补充把!...

2020-09-20 10:06:05 42

原创 MAVEN安装

MAVEN安装笔记总结超详细!

2020-09-20 09:30:11 87

原创 AWS SDK for JAVA 基础部署方法(v2)

AWS SDK For JAVA v2AWS SDK就是让您用代码开发AWS组件的一些包,当然这是对于java来说。这篇博客适用于V2版本,也就是新一代的SDK版本。Github地址https://github.com/aws/aws-sdk-java-v2第一次使用AWS SDK使用MAVEN构建AWS项目,在第一次使用前,导入如下依赖<dependency> <groupId>software.amazon.awssdk</groupId> &l

2020-09-04 14:01:58 150

原创 Linux route命令 总结

Linux查看命令方法:manmanual上面两个命令可以查询一个命令的用法命令后边加上 --help,也可以查看一个命令的用法route命令 man route[root@ip-172-31-42-6 ~]# man routeROUTE(8) Linux System Administrator's Manual ROUTE(8)NAME route - sho

2020-08-28 14:10:30 48

人类通用语言算法01:得到字符串字符的所有不重复组合

有一天,我想自己做人工智能。 我首先想到的就是语言问题。也就是人工智能如何认知到这个世界的一切。 我认为生命不过就是信息处理,所以,一种能够表达所有事物的组合性代表性的通用语言是很有用的。 完成这个通用表示语言的第一步,就是根据一个事物,得到它的各种不同表达状态。 这里以人类语言为例,输入一个字符串,可以得到字符串中所有字的组合 我甚至不知道它属于什么算法,也许看了它之后会对你有所启发。 (其实我特别想下载Jooner的源码,苦于没有c币,所以拿出一份独特的源码换几个c币,顺便请大家判断一下这个算法是属于什么类别的,前人是否已经做出类似算法,如果您知道类似的算法,请务必评论留言,不胜感激!)

2018-12-03

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除