自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(55)
  • 收藏
  • 关注

原创 大数据平台浏览器展示异常解决方法

请点击查看对应浏览器查看解放方案:谷歌谷歌用谷歌新版浏览器查看报表出现下图异常界面时请参照本文档进行修改:修改步骤:1、打开谷歌浏览器,点击地址栏右侧的三个点,如下图所示,会弹出对话框,在弹出的对话框中点击“设置”,出现第二部的界面;2、修改浏览器设置界面地址栏为chrome://flags,回车;3、在flages界面搜索框中输入sames,搜索参照下图修改弹出界面,SameSite by default cookies处下拉列表选disabl...

2020-10-21 10:49:33 1828

原创 Kylin-Cube构建和Job监控

Cube建立首先,确认你拥有你想要建立的 cube 的权限。 在Models页面中,点击 cube 栏右侧的Action下拉按钮并选择Build操作。 选择后会出现一个弹出窗口,点击Start Date或者End Date输入框选择这个增量 cube 构建的起始日期。 点击Submit提交请求。成功之后,你将会在Monitor页面看到新建的 job。 新建的 job 是 “pending” 状态;一会儿,它就会开始运行并且...

2020-05-30 15:26:14 456

原创 Kylin-Cube创建

目录I. 新建项目II. 同步Hive表III. 新建 Data ModelIV. 新建 CubeI. 新建项目 由顶部菜单栏进入Model页面,然后点击Manage Projects。 点击+ Project按钮添加一个新的项目。 填写下列表单并点击submit按钮提交请求。 成功后,底部会显示通知。 II. 同步Hive表 在顶部菜单栏点击Model,然后点击左边的Data Source标签,它会列出...

2020-05-30 14:59:16 245

原创 Kylin-Web界面

Version:Apache kylin 3.0.2支持的浏览器Windows: Google Chrome, FireFoxMac: Google Chrome, FireFox, Safari1. 访问 & 登陆访问主机: http://hostname:7070ADMIN/KYLIN2. Kylin 中可用的 Hive 表虽然 Kylin 使用 SQL 作为查询接口并利用 Hive 元数据,Kylin 不会让用户查询所有的 hive 表,因为到目前为止它是一.

2020-05-30 14:07:30 837

原创 MySQL--常见的三种存储引擎

数据库存储引擎是数据库底层软件组织,数据库管理系统(DBMS)使用数据引擎进行创建、查询、更新和删除数据,不同的存储引擎...存储引擎数据库存储引擎: 是数据库底层软件组织,数据库管理系统(DBMS)使用数据引擎进行创建、查询、更新和删除数据。不同的存储引擎提供不同的存储机制、索引技巧、锁定水平等功能,使用不同的存储引擎,还可以 获得特定的功能。现在许多不同的数据库管理系统都支持多种不同的数据引擎。MySql的核心就是插件式存储引擎。查看存储引擎SHOWENGINES命令来查看My..

2020-05-21 13:21:07 210

原创 Spark Streaming

目录一、SparkStreaming简介二、DStream简介三、DStream操作1. 无状态转化操作2、有状态转化操作Spark Streaming 优缺点:一、SparkStreaming简介SparkStreaming是一个对实时数据流进行高通量、容错处理的流式处理系统,可以对多种数据源(如Kdfka、Flume、Twitter、Zero和TCP套接...

2020-03-26 14:31:46 91

原创 大数据、数据分析、数据挖掘的差别

在大数据领域里,经常会看到例如数据挖掘、OLAP、数据分析等等的专业词汇。如果仅仅从字面上,我们很难说清楚每个词汇的意义和差别。大讲台老师通过一些大数据在高校应用的例子,来为大家说明白—数据挖掘、大数据、OLAP、数据统计的区别。(一)数据分析数据分析是一个大的概念,理论上任何对数据进行计算、处理从而得出一些有意义的结论的过程,都叫数据分析。从数据本身的复杂程度、以及对数...

2020-03-26 08:13:15 147

原创 时间序列分解法

时间序列分解法是数年来一直非常有用的方法,这种方法包括谱分析、时间序列分析和傅立叶级数分析等。时间序列分解模型:时间序列y可以表示为以上四个因素的函数,即:Yt=f(Tt,St,Ct,It)  时间序列分解的方法有很多,较常用的模型有加法模型和乘法模型。  加法模型为:Yt=Tt+St+Ct+It  乘法模型为:Yt = Tt ×St ×Ct ×I...

2020-03-26 08:12:34 1184

原创 决策树分类

一、简介决策树分类算法(decision tree)通过树状结构对具有某特征属性的样本进行分类。其典型算法包括ID3算法、C4.5算法、C5.0算法、CART算法等。每一个决策树包括根节点(root node),内部 节点(internal node)以及叶子节点(leaf node)。根节点:表示第一个特征属性,只有出边没有入边,通常用矩形框表示。内部节点:表示特征属...

2020-03-26 08:11:08 164

原创 AR模型和线性预测的关系

设x(n)在n时刻之前的p个数据已知,我们希望利用这p个数据来预测n时刻的值x(n),预测的方法很多,我们用线性预测来实现,是真实值x(n)的预测,那么有:令真实值和预测值之间的误差是e(n),则有:因此,总的预测误差功率为:为了(20)达到最小,应该是x(n-p)……x(n-1)和预测误差序列e(n)正交<参看《数字信号处理程序》胡光p531>,即:由...

2020-03-26 08:10:13 1390

原创 方差分析

一、方差分析原理1. 方差分析概述方差分析可用来研究多个分组的均值有无差异,其中分组是按影响因素的不同水平值组合进行划分的。方差分析,是用来检验两个或两个以上均值间差别显著性(影响观察结果的因素:原因变量(列变量)的个数大于2,或分组变量(行变量)的个数大于1)。一元时常用F检验(也称一元方差分析),多元时用多元方差分析(最常用Wilks’∧检验)。方差分析可用于:(1)完全随...

2020-03-26 08:09:53 206

原创 Spark SQL

目录Spark SQL产生背景Spark SQL的特点SparkSessionDataFramesSpark SQL的执行计划RDD、DataFrame和DataSetSpark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame,并且作为分布式 SQL 查询引擎。Spark SQL产生背景Hive将Hive SQL转换成...

2020-03-26 08:08:11 87

原创 主成分分析法

什么是主成分分析法  主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。  在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主...

2020-03-26 08:07:44 475

原创 较常使用的分析方式

1.主成分分析主成分分析主要是一种探索性的技术,在分析者进行多元数据分析之前,用他来分析数据,让自己对数据有一个大致的了解,这是非常有必要的。主成分分析一般很少单独使用:a、了解数据。(screening the data),b、和cluster analysis(聚类分析)一起使用,c、和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成分对变量简...

2020-03-25 14:51:17 166

原创 因子分析

主成分分析通过线性组合将原变量综合成几个主成分,用较少的综合指标来代替原来较多的指标(变量)。在多变量分析中,某些变量间往往存在相关性。是什么原因使变量间有关联呢?是否存在不能直接观测到的、但影响可观测变量变化的公共因子?因子分析法(Factor Analysis)就是寻找这些公共因子的模型析方法,它是在主成分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变量,以此考察原变量间的联系与...

2020-03-25 14:46:33 176

原创 平稳性、正态分布、白噪声和方差齐性

平稳性时间序列平稳性的定义现象:始终在一常值附近随机波动,波动范围有限,且无明显趋势及周期特征。假定某个时间序列由某一随机过程(stochastic process)生成,即假定时间序列{Xt}(t=1, 2, …)的每一个数值都是从一个概率分布中随机得到的。如果经由该随机过程所生成的时间序列满足下列条件:均值E(Xt)=m是与时间t 无关的...

2020-03-25 14:41:18 2209

原创 ARIMA模型

自回归滑动平均模型(ARMA 模型,Auto-Regressive and Moving Average Model)是研究时间序列的重要方法,由自回归模型(简称AR模型)与滑动平均模型(简称MA模型)为基础“混合”构成。在市场研究中常用于长期追踪资料的研究,如:Panel研究中,用于消费行为模式变迁研究;在零售研究中,用于具有季节变动特征的销售量、市场规模的预测等。基本原理将预测指标随时...

2020-03-25 14:23:57 449

原创 主成分和因子分析的区别

1. 原理不同: 主成分分析(Principal components analysis,PCA)基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个不相关的综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的。...

2020-03-25 14:11:00 601

原创 FRM模型

根据美国数据库营销研究所Arthur Hughes的研究,客户数据库中有三个神奇的要素,这三个要素构成了数据分析最好的指标:最近一次消费(Recency) 消费频率(Frequency) 消费金额(Monetary)最近一次消费  最近一次消费意指上一次购买的时候——顾客上一次是几时来店里、上一次根据哪本邮购目录购买东西、什么时候买的车,或在你的超市买早餐最近的一次是什么时候。理...

2020-03-25 13:55:33 1346

原创 聚类分析

聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为...

2020-03-25 13:52:26 822

原创 线性回归模型

线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w’x+e,e为误差服从均值为0的正态分布。回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。线性回归(L...

2020-03-25 13:37:46 1674

原创 相关和回归分析

标准化正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),最早由A.棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。正态曲线呈钟型,两头低,中间高,左右对...

2020-03-25 13:12:04 338

原创 算法适用条件和优缺点

监督学习监督学习中,输入变量与输出变量可以是连续的,也可以是离散的。若输入变量与输出变量均为连续变量,则称为回归;输出变量为有限个离散变量,则称为分类;输入变量与输出变量均为变量序列,则称为标注。KNN算法:有监督的机器学习算法,可用于估计分类变量和连续变量,是一种用于分类和回归的非参数方法。在使用knn进行分类前,要先对数据通过归一化来进行无量纲处理。优点:(1)简单,易于理解,易于实...

2020-03-24 22:14:19 972

原创 聚类分析Kmean

1、聚类的使用1)事先不知道样本的类别,甚至不知道需要得出的类别个数。2)样本类别之间有差异性,分类结果能很好地解释预期现象。3)一般用于数据探索,比如发现群组和离群点检测,还可以作为其他算法的预处理步骤。2、样本选择:很多教程都告诉我们基于划分方法的聚类多适用于中等体量的数据集,但我们也不知道“中等”到底有多“中”。通常认为记录数量一般没有限制,与实际应用有关,但样本中记录个数一般要大...

2020-03-24 21:50:45 794

原创 R通过RJDBC连接外部数据库

1、连接hivelibrary(RJDBC)drv=JDBC(“org.apache.hive.jdbc.HiveDriver”,list.files("/home/Hadoop/hive/lib",pattern="jar$ ",full.names=TRUE,recursive=TRUE))conn=dbConnect(drv,sprint(‘jdbc:hive2://$ {IP}: ...

2020-03-23 21:48:04 180

原创 R做主成分分析

1、princomp函数princomp(formula, data = NULL, subset, na.action, …)其中formula是没有响应变量的公式(类似回归分析、方差分析,但无响应变量),data是数据框(类似回归分析、方差分析)或:princomp(x, cor = FALSE, scores = TRUE, covmat = NULL,subset = rep(TR...

2020-03-23 21:45:01 1626

原创 R语言实现方差分析

方差分析对数据的要求:满足正态性(来自同一正态总体)和方差齐性(各组方差相等),在这两个条件下,若各组有差异,则只可能是来自影响因素的不同水平。用aov()函数进行方差分析,基本格式为:aov(formula, data=NULL, projections=FALSE, qr=TRUE,contrasts=NULL, …)其中,formula为方差分析公式;data为数据框;pro...

2020-03-23 21:42:45 4920

原创 R做数据处理

1、数据获取的SQL语句#查看创建的表SHOW CREATE TABLE dmk.dmk_sal_actual_sales_dtl;#用原有的表创建一张新表CREATE TABLE temp.dmk_sal_actual_sales_dtl_test asSELECT * from dmk.dmk_sal_actual_sales_dtl TWHERE t.period_wid&...

2020-03-23 20:36:54 119

原创 R做因子分析

factanal(x, factors, data = NULL, covmat = NULL, n.obs = NA,subset, na.actionstart = NULL,scores = c(“none”, “regression”, “Bartlett”),rotation = “varimax”, control = NULL, …)其中x是数据的公式、矩阵或数据框,facto...

2020-03-23 20:25:19 1076

原创 R做购物篮关联分析

运用apriori算法#安装arules包并加载#内置Groceries数据集install.packages(“arules”) #下载软件包library(arules) #加载aru...

2020-03-23 20:23:40 624

原创 R做判别分析

线性判别法:library(MASS)ld=lda(G~x1+x2)z=predict(ld)newG=zclasscbind=(G,zclasscbind=(G,zclasscbind=(G,zx,newG)距离判别法该方法适用于连续型随机变量的判别类,对变量的概率分布没有限制。R程序名:(distinguish.distance.R)distinguish.distanc...

2020-03-23 20:19:01 549

原创 R 通过RJDBC连接hive

RJDBC常用函数:1、 JDBC(驱动,jar包,分隔符):加载数据库驱动2、 dbConnect(驱动参数,url,用户名,密码,其他):连接数据库3、 dbGetQuery(conn, “select count(*) from iris”):查询语句4、 dbDisconnect(conn):关闭连接1. 首先要安装rJava这个包R的许多包都要依赖rJava这个包。安...

2020-03-23 20:03:11 605

原创 R构建RFM模型

RFM模型仅仅是一个前期的探索性分析,可以利用RFM模型输出的指标结果还可以进行其他分类以及降维模型的构建,深入探索客户数据价值,挖掘潜在营销点。RFM模型是市场营销和CRM客户管理中经常用到的探索性分析方法,透过模型深入挖掘客户行为背后的价值规律,进而更好地利用数据价值推动业务发展和客户管理。RFM是三种客户行为的英文缩写:R:Recency —— 客户最近一次交易时间的间隔。R值越大,...

2020-03-22 21:53:34 796

原创 R实现数据抽样

训练集与测试集 x为输入变量,y为输出变量。利用训练集中的x,y建立模型。将测试集中的x带入模型,来预测测试集目标输出变量y的值,设为y’,将训练集的x带入模型,来预测训练集目标输出变量y的值,设为y’’。那么y’’与y的误差评价了模型的拟合程度,即自己对自己的契合程度;而y’与y的误差则评价了模型的推广程度,即与别人的契合程度。当我们说一个模型相对较好时,往往指该模型的拟合程度和推...

2020-03-22 21:49:03 1015

原创 R网络爬虫-RCurl包

RCurl这个程序包提供了由R到libcurl库的接口,从而实现HTTP的一些功能。例如,从服务器下载文件、保持连接、上传文件、采用二进制格式读取、句柄重定向、密码认证等等。超文本传输协议(HTTP)是一种通信协议,它允许将超文本标记语言(HTML)文档从Web服务器传送到客户端的浏览器。URL详解:基本格式:schema://host[:port#]/path/…/[?query-stri...

2020-03-22 21:42:43 908

原创 R交互化展示-shiny包

install.packages(“shiny”)library(shiny)#查看实例runExample()runExample(“01_hello”)#定义web应用的用户界面shinyUI(pageWithSidebar(#应用名称/标题/主面板数据headerPanel(“hello”),sidebarPanel(),mainPanel()))...

2020-03-22 21:39:30 737

原创 R进行相关性分析

一、相关性矩阵计算:[1] 加载数据:  data = read.csv(“231-6057_2016-04-05-ZX_WD_2.csv”,header=FALSE)说明:csv格式的数据,header=FALSE 表示没有标题,即数据从第一行开始。[2] 计算相关性矩阵(可以自己指定采用的方法,“pearson”, “kendall”, “spearman”)注:cor(x,y,me...

2020-03-22 21:38:47 2669

原创 R做线性回归

一元线性回归:a<-lm(w~1+h1+h2) #一元线性回归,a为模型赋值,w为因变量。h1,h2为自变量Summary(a) #线性模型的汇总数据,t检验Predict(a) #作出预测plot(h1,a) ...

2020-03-22 21:37:33 348

原创 R数据可视化-ggplot2包

ggplot2作图qplot函数:install.packages(“ggplot2”)library(ggplot2)#ggplot2自带的数据集diamondsdiamondsgetOption(“max.print”)options(max.print=100000)#作图qplot(carat,price,data=diamonds)qplot(log(carat),l...

2020-03-22 21:36:21 769

原创 R数据加工厂-plyr包

plyr包的基本函数:**主函数:ply() 函数族aaply()函数、adply()函数、alply()函数、daply()函数、ddply()函数、dlply()函数、mply()函数按输入分类,:分为aply(), dply(), lply()三大类:aply(.data, .margins, .fun, …, .progress = “none”)dply(.data, .var...

2020-03-22 21:19:45 304

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除