大数据
文章平均质量分 92
大数据学习整理。
糖潮丽子
这个作者很懒,什么都没留下…
展开
-
机器学习是什么?我对机器学习的理解
我对机器学习的理解原创 2022-03-09 10:29:54 · 3546 阅读 · 0 评论 -
十大机器学习算法
初学者应该知道的十大机器学习算法来源:https://builtin.com/data-science/tour-top-10-algorithms-machine-learning-newbies机器学习算法被描述为学习一个目标函数 (f),它最好地将输入变量 (X) 映射到输出变量 (Y):Y = f(X)最常见的机器学习类型是学习映射 Y = f(X) 以针对新 X 预测 Y。这称为预测建模或预测分析,目标就是要做出最准确的预测。机器学习算法线性回归逻辑回归线性判别分析分类和回归树朴素贝叶原创 2022-03-08 22:55:24 · 31643 阅读 · 10 评论 -
数据分析——K-Means(K均值聚类算法)——糖潮丽子
K-Means1、主题2、目标3、聚类4、K-Means算法(K-均值算法)4.1 算法步骤4.2 过程演示4.3 优化目标4.4 算法优点与缺点4.5 程序演示4.5.1 数据一览4.5.2 训练4.5.3 预测4.5.4 数据可视化4.6 初始质心的影响5、K-Means++5.1 算法步骤5.2 程序演示6、Mini Batch K-Means6.1 算法步骤6.2 程序演示6.2 1 生成...转载 2020-05-06 13:20:50 · 8694 阅读 · 0 评论 -
机器学习之决策树(数据分析师学习必备)——糖潮丽子的博客
现实生活中,我们会进行各种各样的选择。不论是挑选商品,还是挑选任何东西,都是通过以往经验所得。如果我们把挑选东西背后的逻辑整理成一个结构图,你会发现它实际上就是一个树状图,就像公司人员结构组成那样,这就是我们本篇博客要讲解的内容——决策树。决策树是一种机器学习的方法。决策树的生成算法有ID3, C4.5和CART等。决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断...转载 2020-04-27 00:20:21 · 981 阅读 · 0 评论 -
小白学习朴素贝叶斯——看即懂
朴素贝叶斯:朴素贝叶斯1、知识要点1.1 概率基础1.1.1 随机事件1.1.2 样本空间1.1.3 概率1.1.4 联合概率1.1.5 条件概率1.1.6 独立性1.1.6.1 独立性现象1.1.6.2 独立性定义1.1.7 全概率公式1.1.8 贝叶斯公式1.1.8.1 公式定义1.1.8.2 核心思维1.1.8.3 相关示例1.1.8.4 先验概率与后验概率2.1 朴素贝叶斯算法2.1....转载 2020-04-24 13:11:42 · 889 阅读 · 0 评论 -
KNN(K最近邻)分类算法_糖潮丽子的博客
本次课讲述KNN算法的原理,超参数调整,以及KNN算法应用。kNN算法:K最近邻(kNN,k-NearestNeighbor)分类算法。算法概述邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。KNN是一种分类(classificatio...转载 2020-04-22 14:52:40 · 1783 阅读 · 0 评论 -
详细讲解分类模型评估
1、分类模型:分类问题在我们日常生活中处处可见,比如我们对帅哥的分类,可能对帅哥分为非常帅和一般帅。比如我们平时刷淘宝,淘宝根据我们平时的喜好给我们推送产品,那我们就会把产品分为感兴趣和不感兴趣两类。上述所说的问题就是典型的分类问题,确切的说其实就是二分类问题。能够解决这些二分类问题的数学模型就被称为二分类模型。用数学的方式表达就是,给定自变量X,代入到我们的分类模型F,会输出因变量y,y...原创 2020-04-19 10:57:41 · 1707 阅读 · 3 评论 -
逻辑回归的原理及代码理解
讲述逻辑回归模型,使用逻辑回归实现分类任务。1、目标能够清晰理解逻辑回归模型的原理。掌握sigmoid函数的作用。能够使用逻辑回归模型实现二分类以及多分类任务2、逻辑回归模型2.1 模型简介逻辑回归,我们不要被其名字所误导,逻辑回归不是回归,输出的不是连续的值,而是一个类别。实际上,逻辑回归是一个分类算法,其应用于对样本数据进行分类的场景中。逻辑回归(Logistic R...原创 2020-04-18 16:17:06 · 820 阅读 · 0 评论 -
案例:通过分析与预测空气质量指数AQI学习统计分析(下)
接着上一篇的内容,我们继续学习数据分析师用到的统计学的内容。让我们继续开始对AQI的分析与预测吧!5.4 空气质量主要受哪些因素的影响?对于空气质量,我们很可能会关注这个问题,例如,我们可能会产生如下的疑问:人口密度大,是否会对空气质量造成负面影响?绿化率高,是否会提高空气质量?我们可以通过画图进行查看:5.4.1 散点图矩阵什么是散点图矩阵?散点图矩阵图是可用于比较多个...原创 2020-04-17 09:02:32 · 3296 阅读 · 0 评论 -
我是损失函数,用来表现预测数据与实际数据的差距而存在
损失函数定义机器学习模型关于单个样本的预测值与真实值的差称为损失。损失越小,模型越好,如果预测值与真实值相等,就是没有损失。用于计算损失的函数称为损失函数。模型每一次预测的好坏用损失函数来度量。机器通过损失函数进行学习。这是一种评估特定算法对给定数据建模程度的方法。如果预测值与实际结果偏离较远,损失函数会得到一个非常大的值。在一些优化函数的辅助下,损失函数逐渐学会减少预测值的误差。通俗的讲损...原创 2020-04-16 21:26:44 · 9254 阅读 · 1 评论 -
机器学习之你不懂的 sigmoid函数
sigmoid函数sigmoid函数原型什么是sigmoid函数?Sigmoid函数的表达式:Sigmoid函数的图像:函数的基本性质:Sigmoid函数与逻辑回归如何绘制sigmoid函数图像sigmoid函数原型对于分类任务来说,如果仅仅给出分类的结果,在某些场景下,提供的信息可能并不充足,这就会带来一定的局限。因此,我们建立分类模型,不仅应该能够进行分类,同时,也应该能够提供样本属于该类...原创 2020-04-16 14:52:12 · 19774 阅读 · 0 评论 -
案例:通过空气质量指数AQI学习统计分析并进行预测(上)
1、AQI 分析与预测1.1 背景信息AQI(空气质量指数),用来衡量空气清洁或者污染的程度。值越小,表示空气质量越好。近年来,因为环境问题,空气质量也越来越受到人们的重视。1.2 学习任务说明我们期望能够运用数据分析的相关技术,对全国城市空气质量能行研究和分析,希望能够解决一下疑问:这里整合用到了之前的一些统计学习相关的内容。 需要回顾学习的可以点击以下内容:描述性统计分析。推...原创 2020-04-14 12:10:09 · 7869 阅读 · 0 评论 -
没别的!学它——通俗易懂的线性回归
1、线性回归背景主题:讲述线性回归模型,用来实现连续类型变量的预测。目标:掌握线性回归模型的原理能够使用线性回归进行预测能够对线性回归模型进行评估2、线性回归知识要点2.1、数据建模2.1.1、模型概念模型我们可以理解为一个函数(一种映射规则)。由训练数据来确定函数的参数,当参数确定好后,我们就可以利用该模型(函数)对未知的数据(非训练时使用的数据)进行求值,也就是进行预...原创 2020-04-11 13:16:28 · 894 阅读 · 0 评论 -
一看就懂的推断分析——假设检验
假设检验,又称统计假设检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。显著性检验是假设检验中最常用的一种方法,也是一种最基本的统计推断形式,其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。常用的假设检验方法有Z检验、t检验、卡方检验、F检验等。这里我们只学习Z检验和 t 检验。目录1、学习目标...原创 2020-04-07 19:21:46 · 2523 阅读 · 0 评论 -
作为数据分析师一定要知道的推断分析(参数估计)
参数估计的含义与应用目标:熟知点估计与区间估计的概念与区别。熟知中心极限定理的含义。熟知正态分布及其特征。1、推断统计分析(1)总体、个体与样本总体:是包含我们要研究的所有数据,总体中的某个数据,就是个体。总体是所有个体构成的集合。从总体中抽取部分个体,就构成了样本,样本是总体的一个子集。样本中包含的个体数量,称为样本容量。(2)推断统计推断统计研究如何根据样本数据去推断总体数量...原创 2020-04-04 15:19:45 · 3062 阅读 · 0 评论 -
数据分析师一定要掌握的基础——描述性统计分析
以下博客内容讲解了描述性统计分析的所有知识点,以及利用鸢尾花数据集的分析加强对各个统计量的理解。数理统计基础-描述性统计分析1、数理统计基础2、描述性统计分析概述(1)概念(2)变量的类型3、统计量(1)频数与频率a. 频数b. 频率(2)集中趋势a. 均值b. 中位数c. 众数d. 分位数(3)离散程度a. 极差b. 方差c.标准差(4)分布形状a. 偏度b. 峰度4、总结1、数理统计基础...原创 2020-03-31 23:20:54 · 7932 阅读 · 16 评论 -
如何提升Hive执行效率?看这里!
这里分享关于如何提升Hive执行效率,帮助你学会企业级的优化技巧,学会思路变换,多种方法解决问题。还在等什么,让我们开始吧!标题目录技巧1:去重技巧——用group by来替换distinct技巧2:聚合技巧——利用窗口函数grouping sets、cube、rollup技巧3:换个思路解题技巧4:union all时可以开启并发执行技巧5:利用lateral view进行行转列技巧6:表连...原创 2020-03-28 19:40:01 · 2319 阅读 · 0 评论 -
Hive lateral view 和 explode的区别和使用
1、explode将一行数据转换成列数据,可以用于array和map类型的数据。就是将hive一行中复杂的array或者map结构拆分成多行。用于array的语法如下:select explode(arraycol) as newcol from tablename;explode():函数中的参数传入的是arrary数据类型的列名。newcol:是给转换成的列命名一个新的名字...原创 2020-03-28 19:35:46 · 889 阅读 · 4 评论 -
HiveSQL:看这里!一看就懂的连接查询及案例
连接查询:1、学习目标2、表连接(1)inner join(2)left /right join(3)full joincoalesce函数(4)union allunion all和union的区别1、学习目标1、掌握HQL中的各种连接及其组合使用2、掌握数据分析中业务指标思路转换的技巧2、表连接(1)inner join多表内连接,取公共部分表1:user_list_1表2:...原创 2020-03-28 00:53:01 · 1466 阅读 · 2 评论 -
敲黑板啦!开窗函数你学会了吗
特征分析与偏移分析什么是开窗函数?学习目标:1、累计计算窗口函数(1)sum(…) over(……)(2)avg(…) over(……)(3)语法总结:2、分区排序窗口函数3、分组排序窗口函数4、偏移分析窗口函数练习总结:什么是开窗函数?开窗函数用于为行定义一个窗口(这里的窗口是指运算将要操作的行的集合),它对一组值进行操作,不需要使用GROUP BY子句对数据进行分组,能够在同一行中同时返回...原创 2020-03-24 21:29:44 · 3813 阅读 · 4 评论 -
HiveSQL例题-常用函数与基础语法讲解
我们通过一些简单的案例来讲解Hive的常用基础语法以及一些常用的函数。学习目标:1. 掌握HIVE基础语法、常用函数及其组合使用2. 掌握一些基本业务指标的分析思路与实现技巧1、基础语法:SELECT …A… FROM …B… WHERE …C…A:列名B:表名C:筛选条件需求1:某次经营活动中,商家发起了"异性拼团购",试着针对某个地区的用户进行推广,找出匹配用户。...原创 2020-03-23 17:31:33 · 1712 阅读 · 1 评论 -
Hive内部表和外部表的区别及如何创建
目前所创建的表都是所谓的管理表,有时也被称为内部表,因为这种表,Hive会(或多或少地)控制着数据的生命周期。当删除一个管理表时,Hive也会删除这个表中的数据,管理表不方便和其他工作共享数据。内部表(internal table/managed table):没有external修饰,表数据保存在Hive默认的路径下,数据完全由Hive管理,删除表时元数据和表数据都会一起删除。外部表...原创 2020-03-19 14:21:37 · 1598 阅读 · 0 评论 -
高效辨别Hive的静态和动态分区
Hive分区:1、Hive中有分区表的概念,我们可以看到分区具有重要性能优势,分区表可以将数据以一种符合逻辑的方式进行组织,比如分层存储。2、查询分区表中的数据时,除非where语句中包含分区字段过滤条件来显示数据范围,否则不允许执行。3、换句话说,就是用户不允许扫描所有的分区。4、进行这个显示的原因是,通常分区表都拥有非常大的数据集,而且数据增加迅速。如果没有进行分区限制的查询可能会消...原创 2020-03-17 22:42:55 · 1132 阅读 · 0 评论 -
Hive与传统数据库的比较
1、Hive是什么?基于Hadoop的开源的数据仓库工具,用于处理海量结构化数据。Hive把HDFS中结构化的数据映射成表。Hive通过把HiveSQL进行解析和转换,最终生成一系列在hadoop上运行的mapreduce任务,通过执行这些任务完成数据分析与处理。由于Hive采用了SQL的查询语言HQL,因此很容易将Hive理解为数据库。其实从结构上来看,Hive和数据库除了拥有类似的...原创 2020-03-17 21:42:30 · 2406 阅读 · 0 评论 -
Hadoop的shell常用操作
1.启动/关闭Hadoop集群start-all.sh/stop-all.sh2.查看HDFS上的文件和目录hadoop fs -ls -R /3.在HDFS上创建文件夹hadoop fs -mkdir -p /test/name4.上传文件hadoop fs -put source(本地文件路径) dest(HDFS路径)5.下载文件hadoop fs -get s...原创 2020-03-17 21:17:06 · 158 阅读 · 0 评论 -
Hadoop-请谈谈你对Hadoop的认识与理解
1、认识HadoopHadoop是Apache旗下的一套开源软件平台。Hadoop是用来分析和处理大数据的软件平台。Hadoop提供的功能:利用服务器集群,根据用户的自定义业务逻辑, 对海量数据进行分布式处理。Hadoop的核心组件:HDFS、MapReduce、Yarn广义上来说,Hadoop通常指的是指一个更广泛的概念->Hadoop生态 圈。云计算是分布式计算、并行计算...原创 2020-03-17 20:11:50 · 3706 阅读 · 0 评论