- 博客(100)
- 资源 (8)
- 收藏
- 关注
原创 阿龙学堂-算法-逻辑回归
logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。以胃癌病情分析为例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等。因此因变量就为是否胃癌,值为“是”或“否”,自变量就可以包括很多了,如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。然后通过logistic回归分析,可以得到自变量的权重,从而...
2020-08-13 11:42:43 327
原创 sparkmllib算法之操作-第三篇(Word2Vec)
1、定义如果用一句比较简单的话来总结,word2vec是用一个一层的神经网络(即CBOW)把one-hot形式的稀疏词向量映射称为一个n维(n一般为几百)的稠密向量的过程。为了加快模型训练速度,其中的tricks包括Hierarchical softmax,negative sampling, Huffman Tree等。2、原理word2vec可以分为两部分:模型与通过模型获得的词向...
2020-01-14 20:20:03 662
原创 sparkmllib算法之操作-第三篇(TF-IDF)
1、定义在信息检索中,tf-idf(词频-逆文档频率)是一种统计方法,用以评估一个单词在一个文档集合或语料库中的重要程度。经常被用作信息检索、文本挖掘以及用户模型的权重因素。tf-idf的值会随着单词在文档中出现的次数的增加而增大,也会随着单词在语料库中出现的次数的增多而减小。tf-idf是如今最流行的词频加权方案之一。tf-idf的各种改进版本经常被搜索引擎用作在给定用户查询时对文档的相...
2020-01-14 20:08:38 582
转载 阿龙学堂-Hive中使用 with as 优化SQL
一、概述当我们书写一些结构相对复杂的SQL语句时,可能某个子查询在多个层级多个地方存在重复使用的情况,这个时候我们可以使用 with as 语句将其独立出来,极大提高SQL可读性,简化SQL~二、介绍with as 也叫做子查询部分,首先定义一个sql片段,该sql片段会被整个sql语句所用到,为了让sql语句的可读性更高些,作为提供数据的部分,也常常用在union等集合操作中。with as就类似于一个视图或临时表,可以用来存储一部分的sql语句作为别名,不同的是with as 属于一次性
2020-07-09 20:06:39 821
原创 阿龙学堂-VUE面试总结
前言:一句话就能回答的VUE面试题vue中$emit事件无法触发?emit里的事件名不要用大写字母;渲染的时候key给什么值,可以使用index吗,用id好还是index好?当我们在使用v-for进行渲染时,尽可能使用渲染元素自身属性的id给渲染的元素绑定一个key值,这样在当前渲染元素的DOM结构发生变化时,能够单独响应该元素而不触发所有元素的渲染。1.css只在当前组件起作...
2020-05-08 13:37:10 416
原创 CTR广告点击率预估
1、广告分类在线OnLine广告分类可以分为以下几个大类:展示类广告:腾讯的广点通 搜索广告:百度蜂巢 社交平台上广告:微博上广告2、广告计费方式CPM(cost per mile) 按照展示收费,不管用户看到广告没,只要广告每天达到一定的曝光次数,就需要给钱,广告组会给平台组出钱 CPC(Cost per Click) 搜索广告中使用,按照点击收费----百度、Google的...
2020-04-20 13:08:24 2368
原创 java-类、接口、方法、字段等都有哪些修饰符了?
1、java中修饰符在哪里规定了?所有修饰符所在类[Modifier]为如下:package java.lang.reflect;import java.security.AccessController;import sun.reflect.LangReflectAccess;import sun.reflect.ReflectionFactory;/** * The M...
2020-04-09 12:09:32 369
原创 java序列化之-static|transient 修饰的字段能否被序列化?
1、结论static和transient修饰的字段是不会被序列化的。2、验证2.1、创建类并增加两个字段class Wanger implements Serializable { private static final long serialVersionUID = -2095916884810199532L; private String name;...
2020-04-09 11:39:33 1985
原创 java为什么要实现序列化(Serializable)
1、简介对于 Java 的序列化,我一直停留在最浅显的认知上——把那个要序列化的类实现 Serializbale 接口就可以了。我不愿意做更深入的研究,因为会用就行了嘛。但随着时间的推移,见到 Serializbale 的次数越来越多,我便对它产生了浓厚的兴趣。是时候花点时间研究研究了。2、理论Java 序列化是 JDK 1.1 时引入的一组开创性的特性,用于将 Java 对象转换为字...
2020-04-09 11:16:28 978
原创 sparkmllib算法之特征转换-第一篇(StopWordsRemover)
0、停止词介绍停止词是应该从输入中排除的词,通常是因为词经常出现而且没有那么多含义。StopWordsRemover 将字符串序列(例如,Tokenizer 的输出)作为输入,并从输入序列中删除所有停用词。停用词列表由 stopWords 参数指定。某些语言的默认停用词可通过调用访问 StopWordsRemover.loadDefaultStopWords(language),其中可用选...
2020-03-16 18:05:14 380
原创 sparkmllib算法之特征转换-第一篇(分词器)
0、分词器分词是将文本(例如句子)分解为单个术语(通常是单词)的过程。一个简单的 Tokenizer类提供此功能。下面的示例显示了如何将句子拆分为单词序列。RegexTokenizer 允许基于正则表达式(正则表达式)匹配的更高级标记化。默认情况下,参数“pattern”(正则表达式,默认值:) "\\s+"用作分隔符以分割输入文本。或者,用户可以将参数“gap”设置为 false,指示正则表...
2020-03-16 17:55:32 437
原创 sparkmllib算法之操作-第三篇(CountVectorizer)
0、CountVectorizer 使用及原理CountVectorizer 并 CountVectorizerModel 旨在帮助将一组文本文档转换为标签计数的向量。当 apriori 字典不可用时,CountVectorizer 可以用作 Estimator 提取词汇表,并生成一个CountVectorizerModel。该模型为词汇表上的文档生成稀疏表示,然后可以将其传递给其他算法,如 ...
2020-03-16 17:38:45 749
原创 sparkmllib算法之操作-第二篇
0、sparkmllib基础统计相关性 假设检验 总结器1、相关性计算两个系列数据之间的相关性是“统计”中的常见操作。在spark.ml我们提供了很多系列中的灵活性,计算两两相关性。目前支持的相关方法是Pearson和Spearman的相关。Correlation使用指定的方法为输入的矢量数据集计算相关矩阵。输出将是一个DataFrame,其中包含向量列的相关矩阵。im...
2020-03-16 17:19:50 402
原创 sparkmllib算法之操作-第一篇
0、简介sparkMLlib是spark中的一个算法包,主要是进行一些机器学习相关的操作及计算,主要包括以下几个方面: 序号 特征 特征描述 1 ML算法 常见的学习算法,例如分类,回归,聚类和协作过滤 2 特征化 特征提取,变换,降维和选择 3 管道 用于构建,评估和调整ML管道的工具 4 持久性 保存和加载...
2020-03-16 16:51:08 361
原创 SparkGraphx基本操作篇-第三篇
0、需求sparkGraphx实现PageRank1、添加依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"...
2020-03-16 16:25:36 422
原创 阿龙学堂-SparkGraphx基本操作篇-第四篇
0、需求:图的基本操作实现1、加载依赖包略2、代码基本操作 def main(args: Array[String]): Unit = { //准备环境 val conf: SparkConf = new SparkConf().setAppName("test").setMaster("local[4]") val sc = new SparkCon...
2020-03-16 16:22:24 236
原创 阿龙学堂-SparkGraphx基本操作篇-第二篇
0、需求加载外部文件进行图计算,数据存在于该外部文件当中。1、加载依赖包<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-insta...
2020-03-16 16:11:54 264
原创 阿龙学堂-SparkGraphx基本操作篇-第一篇
0、需求实现我们要构建一个由 GraphX 项目上的各种协作者组成的属性图。vertex 属性可能包含用户名和职业。我们可以使用描述协作者之间关系的字符串来注释边:1、加载已有测试数据1.1、加载依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/P...
2020-03-16 15:59:28 396
原创 阿龙学堂-Java手机号码归属地查询
1、需求用户注册了了app就可以收到很多的手机号,从而可以根据手机号码可以该位用户是属于哪个区域,从而可以分析出哪个区域的用户量最大,可以进行组织活动,来推广自己的产品。2、创建项目创建一个普通的maven项目即可。项目依赖<dependencies> <dependency> <groupId>com...
2019-12-13 17:49:20 721 3
原创 阿龙学堂-面试题-异性同房间同住记录
1、需求使用SQL语言,基于hotel_log酒店日志表,写出live_together的加工逻辑,live_together表为异性同房间同住记录。身份证第17位数字表示性别:奇数表示男性,偶数表示女性。源表名:hotel_log字段名称 类型 描述num STRING 序号hotelid ...
2019-12-04 19:03:34 598
原创 阿龙学堂-启动spark任务的两种方式
1、简介spark在现在的数据分析,包括离线分析,微批次处理过程中有很多的运用,但是在启动任务的过程中,大部分是将spark作为一个单独的项目进行处理,但是有时候,在一些和web等项目整合的时候,就不需要单独的进行处理,因此就有了一下两种启动spark的任务方式:1.1、使用方式1创建传统的maven项目,将spark进行单独的处理,首先添加pom坐标<?xml versio...
2019-12-03 12:53:34 443
原创 阿龙学堂-中缀-后缀表达式的计算
1、简介在数据结构中,有一种数据结构叫做:Stack,LIFO(Last In First Out),在这个结构中,有个后缀表达式计算,运用该数据结构进行计算。栈是一种只允许一端操作的线性数据结构,具有LIFO(last in first out)的特点,具有广泛的应用,如我在游戏编程模式--命令模式(2)中使用栈的结构来实验撤销、重做功能。现在打算用栈结构来实现后缀表达式的计算。后缀...
2019-11-29 15:37:53 681
原创 spark启动过程及通信-消息的形式
1、介绍总体概括应该这样:首先启动Driver 程序,创建SparkContext程序,然后和ClusterManager通信,ClusterManager根据程序的逻辑,在相应的Worker上启动Executor,最后 Driver 和Executor通信,把任务分发到Executor进行运行。中间还有很多细节,比如任务的调度,DAGScheduler,Shuffle环节等等。后面会做相应的...
2019-11-22 16:09:43 192
原创 大数据要学什么?该怎么学?
一、阿龙学堂-大数据要学什么?该怎么学?根据当前国内的计算机行业的发展,大数据的发展已经是当前比较流行的趋势,那么大数据到底要学习那些东西了,简单的列举一下:1、数学(初高中,大学数学,甚至一些物理知识):为什么我在当前要提到这个数学或者物理了,简单的举个例子就明白了;示例一: 数学公式 y=ax²+bx+c(a≠0)这个函数,当y=0的时候,求x的值 ...
2019-11-19 10:58:14 1136
原创 阿龙学堂- GitLab部署及配置
GitLab部署及配置一、GitLab 安装和配置安装社区版,GitLab-CE 版本:11.10.61、GitLab安装GitLab安装环境:CentOS7.6系统安装依赖包,并配置postfix服务为GitLab邮件服务# yum install -y curl openssh-server openssh-clients postfix cronie# sys...
2019-11-18 17:05:32 453
原创 Proesto安装使用
Presto1、Proesto安装使用[官网地址] https://prestodb.github.io/overview.html1.1、介绍Presto is a distributed system that runs on a cluster of machines. A full installation includes a coordinator and mult...
2019-09-25 20:26:21 326
转载 H2 数据库使用简介
一、前言H2 是一个用 Java 开发的嵌入式数据库,它本身只是一个类库,即只有一个 jar 文件,可以直接嵌入到应用项目中。H2 主要有如下三个用途:第一个用途,也是最常使用的用途就在于可以同应用程序打包在一起发布,这样可以非常方便地存储少量结构化数据。第二个用途是用于单元测试。启动速度快,而且可以关闭持久化功能,每一个用例执行完随即还原到初始状态。第三个用途是作为缓存,即当做内...
2019-09-24 09:15:30 6618
转载 图形化界面客户端连接phoenix操作hbase
下载地址:官网地址选择对应系统的版本,我这里选择解压版windows64位创建连接关键步骤:选择合适的版本(跟你服务器的版本一致),下载jar包点击测试或完成即可...
2019-09-23 19:35:21 714
转载 分布式任务调度平台XXL-JOB
一、简介1.1 概述XXL-JOB是一个轻量级分布式任务调度平台,其核心设计目标是开发迅速、学习简单、轻量级、易扩展。现已开放源代码并接入多家公司线上产品线,开箱即用。1.2 社区交流1.3 特性1、简单:支持通过Web页面对任务进行CRUD操作,操作简单,一分钟上手; 2、动态:支持动态修改任务状态、启动/停止任务,以及终止运行中任务,即时生效; 3、调度中心HA(中心式...
2019-09-23 14:11:42 3406
转载 shell脚本编程100例
https://blog.csdn.net/yugemengjing/article/details/82469785https://blog.csdn.net/yugemengjing/article/details/824697851、编写hello world脚本#!/bin/bash# 编写hello world脚本echo "Hello World!"2、通过位置变...
2019-08-03 11:12:51 7949
转载 大数据平台调度系统-EasyScheduler
大数据平台离不开调度系统。大数据平台工作流系统主要分为两类: 1.静态工作流执行列表 2.动态工作流执行列表 静态工作流根据作业计划提前生成并持久化任务执行列表,代表有:oozie , azkaban,airflow。 oozie , azkaban,airflow 这三个调度系统都是基于文件配置固化工作流形成DAG。oozie使用xml文件描述任务,支...
2019-07-15 16:55:59 5920 1
原创 Hive优化
Hive优化可以通过以下来进行考虑1、建立表分区使用场景Hive在做Select查询时,一般会扫描整个表内容,会消耗较多时间去扫描不关注的数据。此时,可根据业务需求及其查询维度,建立合理的表分区,从而提高查询效率。指定静态分区或者动态分区静态分区:静态分区是手动输入分区名称,在创建表时使用关键字PARTITIONED BY指定分区列名及数据类型。应用开发时,使用ALTER T...
2019-05-17 20:47:43 2859
user-behaviour-analytics-playbook.pdf
2020-08-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人