自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

CD

CD

原创阿龙学堂-算法-逻辑回归

logistic回归又称logistic回归分析，是一种广义的线性回归分析模型，常用于数据挖掘，疾病自动诊断，经济预测等领域。例如，探讨引发疾病的危险因素，并根据危险因素预测疾病发生的概率等。以胃癌病情分析为例，选择两组人群，一组是胃癌组，一组是非胃癌组，两组人群必定具有不同的体征与生活方式等。因此因变量就为是否胃癌，值为“是”或“否”，自变量就可以包括很多了，如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的，也可以是分类的。然后通过logistic回归分析，可以得到自变量的权重，从而...

2020-08-13 11:42:43 412

原创 sparkmllib算法之操作-第三篇（Word2Vec）

1、定义如果用一句比较简单的话来总结，word2vec是用一个一层的神经网络(即CBOW)把one-hot形式的稀疏词向量映射称为一个n维(n一般为几百)的稠密向量的过程。为了加快模型训练速度，其中的tricks包括Hierarchical softmax，negative sampling, Huffman Tree等。2、原理word2vec可以分为两部分：模型与通过模型获得的词向...

2020-01-14 20:20:03 755

原创 sparkmllib算法之操作-第三篇（TF-IDF）

1、定义在信息检索中，tf-idf（词频-逆文档频率）是一种统计方法，用以评估一个单词在一个文档集合或语料库中的重要程度。经常被用作信息检索、文本挖掘以及用户模型的权重因素。tf-idf的值会随着单词在文档中出现的次数的增加而增大，也会随着单词在语料库中出现的次数的增多而减小。tf-idf是如今最流行的词频加权方案之一。tf-idf的各种改进版本经常被搜索引擎用作在给定用户查询时对文档的相...

2020-01-14 20:08:38 754

原创 SqlBoy:打折日期交叉问题

SqlBoy:打折日期交叉问题

2022-08-02 17:00:49 1005

原创 SqlBoy:间隔连续问题

SqlBoy：间隔连续问题

2022-08-02 16:13:29 1706

原创 SqlBoy:分组问题

SqlBoy：分组问题

2022-08-02 16:10:42 522

原创 SqlBoy:连续问题

SqlBoy:连续问题

2022-08-02 16:07:38 317

原创 SqlBoy:异或、交换奇偶

SqlBoy:异或、交换奇偶

2022-08-02 16:03:42 313

原创阿龙学堂-Spark 数据倾斜如何处理

Spark 数据倾斜如何处理

2022-06-09 14:06:11 440

原创阿龙学堂-hdfs存储数据倾斜

hdfs存储数据倾斜

2022-05-30 09:30:13 629

原创 DorisBE挂掉后，历史数据表都没法访问了？

DorisBE挂掉后，历史数据表都没法访问了？

2022-05-27 11:58:49 1293 1

转载阿龙学堂-Hive中使用 with as 优化SQL

一、概述当我们书写一些结构相对复杂的SQL语句时，可能某个子查询在多个层级多个地方存在重复使用的情况，这个时候我们可以使用 with as 语句将其独立出来，极大提高SQL可读性，简化SQL~二、介绍with as 也叫做子查询部分，首先定义一个sql片段，该sql片段会被整个sql语句所用到，为了让sql语句的可读性更高些，作为提供数据的部分，也常常用在union等集合操作中。with as就类似于一个视图或临时表，可以用来存储一部分的sql语句作为别名，不同的是with as 属于一次性

2020-07-09 20:06:39 1018

原创阿龙学堂-VUE面试总结

前言：一句话就能回答的VUE面试题vue中$emit事件无法触发？emit里的事件名不要用大写字母；渲染的时候key给什么值，可以使用index吗，用id好还是index好？当我们在使用v-for进行渲染时，尽可能使用渲染元素自身属性的id给渲染的元素绑定一个key值，这样在当前渲染元素的DOM结构发生变化时，能够单独响应该元素而不触发所有元素的渲染。1.css只在当前组件起作...

2020-05-08 13:37:10 538

原创 CTR广告点击率预估

1、广告分类在线OnLine广告分类可以分为以下几个大类：展示类广告：腾讯的广点通搜索广告：百度蜂巢社交平台上广告：微博上广告2、广告计费方式CPM(cost per mile) 按照展示收费，不管用户看到广告没，只要广告每天达到一定的曝光次数，就需要给钱，广告组会给平台组出钱 CPC(Cost per Click) 搜索广告中使用，按照点击收费----百度、Google的...

2020-04-20 13:08:24 2798

原创 java-类、接口、方法、字段等都有哪些修饰符了？

1、java中修饰符在哪里规定了？所有修饰符所在类[Modifier]为如下：package java.lang.reflect;import java.security.AccessController;import sun.reflect.LangReflectAccess;import sun.reflect.ReflectionFactory;/** * The M...

2020-04-09 12:09:32 433

原创 java序列化之-static|transient 修饰的字段能否被序列化？

1、结论static和transient修饰的字段是不会被序列化的。2、验证2.1、创建类并增加两个字段class Wanger implements Serializable { private static final long serialVersionUID = -2095916884810199532L; private String name;...

2020-04-09 11:39:33 2134

原创 java为什么要实现序列化（Serializable）

1、简介对于 Java 的序列化，我一直停留在最浅显的认知上——把那个要序列化的类实现 Serializbale 接口就可以了。我不愿意做更深入的研究，因为会用就行了嘛。但随着时间的推移，见到 Serializbale 的次数越来越多，我便对它产生了浓厚的兴趣。是时候花点时间研究研究了。2、理论Java 序列化是 JDK 1.1 时引入的一组开创性的特性，用于将 Java 对象转换为字...

2020-04-09 11:16:28 1108

原创 sparkmllib算法之特征转换-第一篇（StopWordsRemover）

0、停止词介绍停止词是应该从输入中排除的词，通常是因为词经常出现而且没有那么多含义。StopWordsRemover 将字符串序列（例如，Tokenizer 的输出）作为输入，并从输入序列中删除所有停用词。停用词列表由 stopWords 参数指定。某些语言的默认停用词可通过调用访问 StopWordsRemover.loadDefaultStopWords(language)，其中可用选...

2020-03-16 18:05:14 452

原创 sparkmllib算法之特征转换-第一篇（分词器）

0、分词器分词是将文本（例如句子）分解为单个术语（通常是单词）的过程。一个简单的 Tokenizer类提供此功能。下面的示例显示了如何将句子拆分为单词序列。RegexTokenizer 允许基于正则表达式（正则表达式）匹配的更高级标记化。默认情况下，参数“pattern”（正则表达式，默认值:) "\\s+"用作分隔符以分割输入文本。或者，用户可以将参数“gap”设置为 false，指示正则表...

2020-03-16 17:55:32 515

原创 sparkmllib算法之操作-第三篇(CountVectorizer)

0、CountVectorizer 使用及原理CountVectorizer 并 CountVectorizerModel 旨在帮助将一组文本文档转换为标签计数的向量。当 apriori 字典不可用时，CountVectorizer 可以用作 Estimator 提取词汇表，并生成一个CountVectorizerModel。该模型为词汇表上的文档生成稀疏表示，然后可以将其传递给其他算法，如 ...

2020-03-16 17:38:45 870

原创 sparkmllib算法之操作-第二篇

0、sparkmllib基础统计相关性假设检验总结器1、相关性计算两个系列数据之间的相关性是“统计”中的常见操作。在spark.ml我们提供了很多系列中的灵活性，计算两两相关性。目前支持的相关方法是Pearson和Spearman的相关。Correlation使用指定的方法为输入的矢量数据集计算相关矩阵。输出将是一个DataFrame，其中包含向量列的相关矩阵。im...

2020-03-16 17:19:50 467

原创 sparkmllib算法之操作-第一篇

0、简介sparkMLlib是spark中的一个算法包，主要是进行一些机器学习相关的操作及计算，主要包括以下几个方面：序号特征特征描述 1 ML算法常见的学习算法，例如分类，回归，聚类和协作过滤 2 特征化特征提取，变换，降维和选择 3 管道用于构建，评估和调整ML管道的工具 4 持久性保存和加载...

2020-03-16 16:51:08 460

原创 SparkGraphx基本操作篇-第三篇

0、需求sparkGraphx实现PageRank1、添加依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"...

2020-03-16 16:25:36 498

原创阿龙学堂-SparkGraphx基本操作篇-第四篇

0、需求：图的基本操作实现1、加载依赖包略2、代码基本操作 def main(args: Array[String]): Unit = { //准备环境 val conf: SparkConf = new SparkConf().setAppName("test").setMaster("local[4]") val sc = new SparkCon...

2020-03-16 16:22:24 304

原创阿龙学堂-SparkGraphx基本操作篇-第二篇

0、需求加载外部文件进行图计算，数据存在于该外部文件当中。1、加载依赖包<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-insta...

2020-03-16 16:11:54 322

原创阿龙学堂-SparkGraphx基本操作篇-第一篇

0、需求实现我们要构建一个由 GraphX 项目上的各种协作者组成的属性图。vertex 属性可能包含用户名和职业。我们可以使用描述协作者之间关系的字符串来注释边：1、加载已有测试数据1.1、加载依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/P...

2020-03-16 15:59:28 472

原创阿龙学堂-Java手机号码归属地查询

1、需求用户注册了了app就可以收到很多的手机号，从而可以根据手机号码可以该位用户是属于哪个区域，从而可以分析出哪个区域的用户量最大，可以进行组织活动，来推广自己的产品。2、创建项目创建一个普通的maven项目即可。项目依赖<dependencies> <dependency> <groupId>com...

2019-12-13 17:49:20 802 3

原创阿龙学堂-面试题-异性同房间同住记录

1、需求使用SQL语言，基于hotel_log酒店日志表，写出live_together的加工逻辑，live_together表为异性同房间同住记录。身份证第17位数字表示性别：奇数表示男性，偶数表示女性。源表名：hotel_log字段名称类型描述num STRING 序号hotelid ...

2019-12-04 19:03:34 717

原创阿龙学堂-启动spark任务的两种方式

1、简介spark在现在的数据分析，包括离线分析，微批次处理过程中有很多的运用，但是在启动任务的过程中，大部分是将spark作为一个单独的项目进行处理，但是有时候，在一些和web等项目整合的时候，就不需要单独的进行处理，因此就有了一下两种启动spark的任务方式：1.1、使用方式1创建传统的maven项目，将spark进行单独的处理，首先添加pom坐标<?xml versio...

2019-12-03 12:53:34 503

原创阿龙学堂-中缀-后缀表达式的计算

1、简介在数据结构中，有一种数据结构叫做：Stack，LIFO（Last In First Out）,在这个结构中，有个后缀表达式计算，运用该数据结构进行计算。栈是一种只允许一端操作的线性数据结构，具有LIFO(last in first out)的特点，具有广泛的应用，如我在游戏编程模式--命令模式(2）中使用栈的结构来实验撤销、重做功能。现在打算用栈结构来实现后缀表达式的计算。后缀...

2019-11-29 15:37:53 776

原创 spark启动过程及通信-消息的形式

1、介绍总体概括应该这样：首先启动Driver 程序，创建SparkContext程序，然后和ClusterManager通信，ClusterManager根据程序的逻辑，在相应的Worker上启动Executor，最后 Driver 和Executor通信，把任务分发到Executor进行运行。中间还有很多细节，比如任务的调度，DAGScheduler，Shuffle环节等等。后面会做相应的...

2019-11-22 16:09:43 249

原创大数据要学什么？该怎么学？

一、阿龙学堂-大数据要学什么？该怎么学？根据当前国内的计算机行业的发展，大数据的发展已经是当前比较流行的趋势，那么大数据到底要学习那些东西了，简单的列举一下：1、数学（初高中，大学数学，甚至一些物理知识）：为什么我在当前要提到这个数学或者物理了，简单的举个例子就明白了；示例一：数学公式 y=ax²+bx+c（a≠0）这个函数，当y=0的时候，求x的值 ...

2019-11-19 10:58:14 1245

原创阿龙学堂- GitLab部署及配置

GitLab部署及配置一、GitLab 安装和配置安装社区版，GitLab-CE 版本：11.10.61、GitLab安装GitLab安装环境：CentOS7.6系统安装依赖包，并配置postfix服务为GitLab邮件服务# yum install -y curl openssh-server openssh-clients postfix cronie# sys...

2019-11-18 17:05:32 537

原创 Proesto安装使用

Presto1、Proesto安装使用[官网地址] https://prestodb.github.io/overview.html1.1、介绍Presto is a distributed system that runs on a cluster of machines. A full installation includes a coordinator and mult...

2019-09-25 20:26:21 397

转载 H2 数据库使用简介

一、前言H2 是一个用 Java 开发的嵌入式数据库，它本身只是一个类库，即只有一个 jar 文件，可以直接嵌入到应用项目中。H2 主要有如下三个用途：第一个用途，也是最常使用的用途就在于可以同应用程序打包在一起发布，这样可以非常方便地存储少量结构化数据。第二个用途是用于单元测试。启动速度快，而且可以关闭持久化功能，每一个用例执行完随即还原到初始状态。第三个用途是作为缓存，即当做内...

2019-09-24 09:15:30 6981

转载图形化界面客户端连接phoenix操作hbase

下载地址：官网地址选择对应系统的版本，我这里选择解压版windows64位创建连接关键步骤：选择合适的版本（跟你服务器的版本一致），下载jar包点击测试或完成即可...

2019-09-23 19:35:21 812

转载分布式任务调度平台XXL-JOB

一、简介1.1 概述XXL-JOB是一个轻量级分布式任务调度平台，其核心设计目标是开发迅速、学习简单、轻量级、易扩展。现已开放源代码并接入多家公司线上产品线，开箱即用。1.2 社区交流1.3 特性1、简单：支持通过Web页面对任务进行CRUD操作，操作简单，一分钟上手； 2、动态：支持动态修改任务状态、启动/停止任务，以及终止运行中任务，即时生效； 3、调度中心HA（中心式...

2019-09-23 14:11:42 3814

转载 shell脚本编程100例

https://blog.csdn.net/yugemengjing/article/details/82469785https://blog.csdn.net/yugemengjing/article/details/824697851、编写hello world脚本#!/bin/bash# 编写hello world脚本echo "Hello World!"2、通过位置变...

2019-08-03 11:12:51 8223

转载大数据平台调度系统-EasyScheduler

大数据平台离不开调度系统。大数据平台工作流系统主要分为两类： 1.静态工作流执行列表 2.动态工作流执行列表静态工作流根据作业计划提前生成并持久化任务执行列表，代表有：oozie , azkaban,airflow。 oozie , azkaban,airflow 这三个调度系统都是基于文件配置固化工作流形成DAG。oozie使用xml文件描述任务，支...

2019-07-15 16:55:59 6076 1

原创 Hive优化

Hive优化可以通过以下来进行考虑1、建立表分区使用场景Hive在做Select查询时，一般会扫描整个表内容，会消耗较多时间去扫描不关注的数据。此时，可根据业务需求及其查询维度，建立合理的表分区，从而提高查询效率。指定静态分区或者动态分区静态分区：静态分区是手动输入分区名称，在创建表时使用关键字PARTITIONED BY指定分区列名及数据类型。应用开发时，使用ALTER T...

2019-05-17 20:47:43 3029

Oracle 函数大全

Oracle 函数大全，随时查看所有Oracle函数，帮助多多

2013-09-25

CDH部署和配置.pdf

CDH部署和配置-详细教程；

2020-08-05

01.数据库_回顾.pdf

数据库基本操作概念

2019-05-10

Hive常用函数大全.pdf

hive常用函数大全，日期类别，函数类别等常用函数都可有；

2020-04-14

user-behaviour-analytics-playbook.pdf

用户行为数据分析；用户行为数据分析；用户行为数据分析；用户行为数据分析；用户行为数据分析；用户行为数据分析；用户行为数据分析；用户行为数据分析

2020-08-05

产品经理数据分析手册.pdf

产品经理数据分析手册.pdf

2020-08-05

CDH中yum源制作.pdf

CDH中yum源制作,制作过程中的每个细节，都在文档中有锁体现，需要的同学们赶快下载，可以节省很多时间哦。

2020-08-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除