qq_16608563-CSDN博客

原创深入理解梯度下降算法

下降方向：设x,d∈Rn.若存在数α>0,使得x,d∈R^n.若存在数α>0,使得x,d∈Rn.若存在数α>0,使得f(x+αd)<f(x)f(x+αd)<f(x)f(x+αd)<f(x)则称d是函数fff在点xxx处的一个下降方向。下降方向ddd从几何上可解释为：当点从xxx出发，沿着方向ddd移动时，函数fff的值的变化呈单调递减的趋势。梯度下降算...

2019-10-26 10:51:07 1463

原创西瓜书读书笔记——模型评估与选择

1 、经验误差与过拟合我们把学习器的实际输出与样本的真实输出之间的差异称为"误差"学习器在训练集上的误差称为"训练误差" 或经验误差在新样本上的误差称为"泛化误差"显然，我们希望得到泛化误差小的学习器，然而，我们事先并不知道新样本什么样，实际能做的就是努力使经验误差最小化。我们实际希望的，是在新样本上能表现的很好的学习器，为了达到这个目的，应该从训练样本中尽可能学出适用于所有潜在样本的"...

2019-10-17 11:32:09 658

原创简单而又奇妙的数值

引言尽管数值型数据已经很容易被数学模型所使用，但并不意味着不需要进行特征工程。好的特征不仅能够表示出数据的主要特点，还应该符合模型的假设，因此通常必须进行数据转换。数值型数据的特征工程技术是非常基本的，只要原始数据被转换为数值型特征，就可以应用这些技术。1：需要对数值型数据进行合理性检查，首先要看看它的量级。2：然后，还要考虑一下特征的尺度。它的最大值和最小值是多少？是否横跨多个数...

2019-10-08 10:55:42 393

原创机器学习流程

几个基本概念数据数据时对现实世界的现象的观测任务收集数据的目的是因为有些问题需要靠数据找出答案由数据得到答案的过程有着复杂的路径，但是这个过程包括两个构成机器学习基础的数学实体：模型和特征模型数据的数学模型描述了数据不同部分之间的关系。例如股票价格的模型可以是一个公式，它将公司的收入历史、过去的股票价格和行业映射为预测的股票价格。数学公式将数值型的变量联系起来，但原始数据经常...

2019-09-27 09:52:29 300

原创机器学习特征工程读书笔记-前言

简介特征工程处于哪个步骤呢？我觉得整个机器学习流程主要可以分为数据采集、数据探索、数据预处理、建模、模型分析与优化和部署使用。特征工程大概位于数据预处理和建模之间，特征工程与数据预处理是有交叉的，为啥这么说呢？往下看一般来说，我们采集的数据时无法直接用于建模的，其中可能含有一些脏数据，比如缺失值、异常值或者不一致的值，这些脏数据可以通过数据探索和数据预处理来进行处理的。但是经过数据预处...

2019-09-27 09:52:03 182

1 Spark程序模型1）SparkContext中的textFile函数从HDFS读取日志文件，输出变量fileval file=sc.textFile(“hdfs://xxx”)2）RDD中的filter函数过滤带“ERROR&quot;的行，输出errors(errors也是一个RDD)val errors = file.filter(line =&amp;gt; line.contains(“ERR...

2019-08-02 17:16:57 551

原创网络基础

IP地址互联网协议地址（Internet Protocol Address）缩写为IP地址（IP Address）。IP地址是IP协议提供的一种统一的地址格式，它为互联网上的每一个网络和每一台主机分配一个逻辑地址，以此来屏蔽物理地址的差异。1）IP地址可以视为网络标识号码与主机标识号码两部分，因此IP地址可分两部分组成，一部分为网络地址，另一部分为主机地址2）IP地址用二进制来表示，每个IP地...

2019-04-27 20:34:10 411

翻译数据预处理

为什么需要数据预处理：1）在真实数据中，我们拿到的数据可能包含了大量的缺失值，可能包含大量的噪音，也可能因为人工录入错误导致有异常点存在，非常不利于算法模型的训练。2）数据预处理的目的是对各种脏数据进行对应方式的处理，得到标准的、干净的、连续的数据，提供给数据统计、数据挖掘等使用。数据处理如何做1）标准化：去平均值和方差缩放（Standardization, or mean remova...

2019-04-24 16:24:31 387

翻译模型选择与评估

交叉验证：评估估计器性能为了防止出现过拟合的情况，一般需要将数据分为训练集和测试集。在Sklearn中可以利用train_test_split()函数来划分数据集。import numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn import datasetsfrom sklearn i...

2019-04-24 15:43:01 314

原创梯度下降与随机梯度下降深入理解

1基础知识：偏导数与方向导数：对于多元函数，如果说偏导数表示的是多元函数在沿坐标轴的变化率，那么可以说方向导数是沿着任意指定的方向的变化率，不一定是沿着坐标轴。方向导数：讨论下函数z=f(x,y)z=f(x,y)z=f(x,y)在一点PPP沿着某一方向的变化率问题。定义：设函数z=f(x,y)在点P(x,y)的某一邻域U(p)内有定义，自点P引射线l.设x轴正向到射线l的转角为φ，并设P...

2019-04-10 19:47:18 359

原创数据降维——主成分分析PCA

一：预备知识向量向量的内积与投影：两个向量A, B 内积的计算公式为：A▪B=∣A∣∣B∣cos(α)A▪B=|A||B|cos(α)A▪B=∣A∣∣B∣cos(α)1）向量内积的几何解释就是：向量A在向量B上的投影长度（∣A∣cos(α)|A|cos(α)∣A∣cos(α)）乘以向量B的模特别的，如果一个向量如a是某个坐标轴的单位向量，那么两个向量的内积a▪ba▪ba▪b就是向量在此...

2019-04-05 15:47:04 873

翻译模型选择的方法——正则化与交叉验证

在典型的机器学习应用中，为进一步提高模型在预测未知数据的性能，还要对不同的参数设置进行调优与比较，该过程称为模型选择，指的是针对某一特定问题，调整参数以寻求最优超参数的过程。偏差：描述的是预测值（估计值）的期望与真实值之间的差距。偏差越大，越偏离真实数据集。学习算法的期望预测为（学习不变，模型参数不变，期望是针对数据集而言的，同样的算法不同的数据集）f(x)=ED[f(x;D)]]f(x)=E...

2019-04-04 15:23:49 3982 2

原创 zookeeper学习总结（一）

背景知识该部分主要介绍什么是分布式系统以及分布式系统存在哪些问题？随着互联网技术的发展，导致大型网站需要的计算能力和存储能力越来越高，网站架构逐渐从集中式转变为分布式。1.什么是分布式分布式系统是一个硬件或软件组件分布在不同的网络计算机上，彼此之间仅仅通过消息传递进行通信和协调的系统一个标准的分布式系统应该具有以下几个主要特点：分布性：分布式系统中的多台计算机之间在空间位置上可以随意分...

2019-01-23 16:28:23 369

原创 Kafka基础知识

消息和批次Kafka的数据单元被称作消息。1）可以把消息看成是数据库里的一个“数据行”或一条“记录”。2）消息由字节数组组成，所以Kafka的消息里的数据没有特别的格式或含义。3）消息有一个可选的元数据，也就是键。当消息以一种可控的方式写入不同的分区时，会用到键。为了提高效率，消息被分批次写入Kafka。批次就是一组消息，这些消息属于同一个主题和分区。1）把消息分成批次传输可以减少网络...

2019-01-18 10:43:34 242

原创 Spark大数据处理读书笔记一：Spark简介

1.1 Spark是什么Spark是基于内存计算的大数据并行计算框架，是一个用来实现快速而通用的集群计算平台。Spark 之于 Hadoop：Spark是一个计算框架，而Hadoop中包含计算框架MapReduce和分布式文件系统HDFS,Hadoop更广泛的说还包含其生态系统上的其他系统，如Hbase、Hive等。Spark是MapReduce的替代方案，而且兼容HDFS、Hive等分...

2019-01-14 16:25:29 762

原创神经网络

神经元模型神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。神经网络中最基本的成分是神经元模型，即上述定义中的“简单单元”。M-P神经元模型：在这个模型中，神经元接收到来自n个其他神经元传递过来的输入信号，这些输入信号通过带权重的连接进行传递，神经元接收到的总输入值将与神经元的阀值进行比较，然后通过“激活函数”处理以产生神经...

2019-01-10 19:33:19 478

原创推荐系统实践读书笔记（一）：好的推荐系统

设计一个推荐系统之前，一定要了解什么样的推荐系统才是好的推荐系统至关重要。那么一个优秀的推荐系统具有哪些特征呢？（量化或者概念性的特征）通过以下三个步骤回答一个优秀的推荐系统是什么样的1）什么是推荐系统、推荐系统的主要任务、推荐系统和分类目录以及搜索引擎的区别2）不同领域分门别类的介绍目前业界常见的个性化推荐应用3）介绍推荐系统的评测什么是推荐系统首先书中引入了一个买花生米的例子，你可...

2019-01-07 14:19:35 499

原创密度聚类和层次聚类

密度聚类K-Means算法、K-Means++ 算法和Mean Shift 算法都是基于距离的聚类算法，基于距离的聚类算法的聚类结果都是球状的簇当数据集中的聚类结果是非球状结构是，基于距离的聚类效果并不好基于密度的聚类算法能够很好的处理非球状结构的数据，与基于距离的聚类算法不同的是，基于密度的聚类算法可以发现任意形状的簇类。在基于密度的聚类算法中，通过在数据集中寻找别低密度区域分离的高密度...

2019-01-04 14:55:11 1356

原创聚类之meanshift算法

在K-Means 算法中，最终的聚类效果受初始的聚类中心的影响，K-Means++算法的提出，为选择较好的初始聚类中心提供了依据（选择的的初始聚类中心尽可能的远）但是算法中，聚类的类别个数K仍需事先确定，对于类别个数事先未知的数据集，K-Means和K-Means++将很难对其精确求解。Mean Shift 算法，又被称作均值漂移算法，与K-Means算法一样，都是基于聚类中心的聚类算法。优...

2019-01-03 16:58:09 1124

原创原型聚类

原型聚类也称作“基于原型的聚类”，此类算法假设聚类结构可以通过一组原型刻画，在现实任务中极为常见。（“原型”是指样本空间中具有代表性的点）通常情况下，算法先对原型进行初始化，然后对原型进行迭代更新求解。采用不同的原型表示、不同的求解方式，将产生不同的算法，下面介绍几种著名的原型聚类算法。k均值算法给定样本集D={x1,x2,……xm}D=\{x_1,x_2,……x_m\}D={x1,x...

2018-12-29 14:50:23 3131

原创聚类算法

聚类任务在“无监督学习”中，训练样本的标记信息是未知的，目标是通过对无标记样本的学习揭示数据的内在性质及规律，为进一步的数据分析提供基础。“无监督学习”任务中，研究最多、应用最广的是“聚类”。聚类试图将数据集中的样本划分成若干个通常是不相交的子集，每个子集称为一个“簇”。通过这样的划分，每个簇可能对应于一些潜在的概念（比如类别）。注意：这些概念对于聚类算法而言事先是未知的，聚类过程仅能自动...

2018-12-24 19:51:44 389

原创隐马尔科夫模型（四）预测算法

预测问题，也称作解码问题。已知模型λ=(A,B,π)λ=(A,B,π)λ=(A,B,π)和观测序列O=(o1,o2……oT)O=(o_1,o_2……o_T)O=(o1,o2……oT)求对给定观测序列条件概率P(I|O)最大的状态序列I=(i1,i2……iT)I=(i_1,i_2……i_T)I=(i1,i2……iT).即给定观测序列，求最可能的对应的状态序列。预测算法：近似算法与维特比...

2018-12-04 19:37:19 2795

原创隐马尔科夫模型（三）学习算法

隐马尔科夫模型的学习，根据训练数据时包括观测序列和对应的状态序列还是只有观测序列，可以分别有监督学习和非监督学习实现。监督学习方法假设已给的训练数据中，包含S个长度相同的观测序列和对应的状态序列{(O1,I1),(O2,I2)……(OS,IS)}\{(O_1,I_1),(O_2,I_2)……(O_S,I_S)\}{(O1,I1),(O2,I2)……(OS,IS)},那么可以利用极...

2018-12-03 21:16:29 394

原创隐马尔科夫模型（二）

概率计算算法给定模型λ=(A,B,π)λ=(A,B,π)λ=(A,B,π),观测序列O=(o1,o2,…oT)O=(o_1,o_2,…o_T)O=(o1,o2,…oT),计算在模型λλλ下观测序列O出现的概率这被称作概率计算问题主要介绍计算观测序列概率P(O∣λ)P(O|λ)P(O∣λ)的前向与后向算法。先介绍概念上可行但计算上不可行的直接计算法直接计算法：给定模型λ=(A,B,...

2018-11-29 11:19:21 236

原创隐马尔科夫模型（一）

基本概念要理解隐马尔科夫模型，首先要回答三个问题1）什么是马尔科夫性？2）什么是马尔科夫链？3）什么是马尔科夫过程？马尔科夫性：要介绍马尔科夫性，还要先了解下随机过程的概念。百度百科给出的随机过程的定义：随机过程是依赖于参数的一族随机变量的全体，参数通常是时间。一般来说，把一组随机变量定义为随机过程，在研究随机过程时人们通过表面的偶然性描述出必然的内在规律性并以概率的形式来描述这些...

2018-11-26 17:24:34 315

原创高斯混合模型(GMM Gaussian Mixture Model)

高斯混合模型是一种业界广泛使用的聚类算法，该方法使用了高斯分布作为参数模型，并使用了期望最大算法（EM）进行训练。

2018-11-23 17:45:28 1226

原创 EM算法及其推广（一）

EM算法是个什么东东EM算法（Expectation-maximization algorithm 期望最大化算法），是一种迭代算法，用于含有隐变量的概率模型参数的极大似然估计，或极大后验概率（事情已经发生，求这件事情发生的原因是由某个因素引起的可能性的大小）估计。拆解一下：1）形式上或者叫算法过程是一个迭代的过程，分为E步：求期望，M步：求极大，直到收敛。2）概率模型依赖于无法观察的隐...

2018-11-23 09:27:16 536

原创深入解析最大熵模型

不要把鸡蛋放到一个篮子里理解了这句话其实已经理解了最大熵模型的精髓了，不过这句话还是有点含蓄，下面讲一下我的理解，欢迎交流。“不要把鸡蛋放到一个篮子里”，这样可以降低风险。为啥不放到一个篮子里就可以降低风险啊？如果有人告诉你就算世界毁灭这个篮子也不会破也不会摔倒地上，那么就永远不会有风险（鸡蛋永远不会摔破）遗憾的是，没有人告诉过你（暗含我们没有足够的知识做出这样的推理），既然有风险就说明篮...

2018-11-15 10:58:17 318

原创深入解析朴素贝叶斯算法

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。1）对于给定的数据集，首先基于特征条件独立假设学习输入\输出的联合概率分布；2）然后基于此模型，对给定的输入xxx,利用贝叶斯定理求出后验概率最大的输出yyy下面我们就围绕上面2个步骤进行介绍。基本概念：先验概率：是根据以往的经验和分析得到的概率（先验概率是我们在未知条件下对事件发生可能性猜测的数学表示）后验概率：事情已经发生，...

2018-11-12 19:59:52 222

原创详解SVM系列（六）：深入解析序列最小最优化SMO算法一

SMO算法是干啥的首先要先搞明白一个基本的问题： SMO算法是干啥的？通过前面的介绍，我们现在掌握了线性不可分支持向量机。其形式为如下的凸二次规划：min12∑i=1N∑J=1NαiαjyiyjK(xixj)−∑i=1Nαimin\frac{1}{2}\displaystyle\sum_{i=1}^{N}\displaystyle\sum_{J=1}^{N}α_iα_jy_iy_jK(x_i...

2018-11-12 13:54:25 467

原创详解SVM系列（五）：非线性支持向量机与核函数

对解线性分类问题，线性分类支持向量机是一种有效的方法。但是，有时分类问题是非线性的，这时可以使用非线性支持向量机。核技巧**非线性分类问题：**如上面左图所示，能用RnR^nRn中的一个超曲面将正负实例分开，则称这个问题为非线性可分问题。非线性问题不好求解，想办法转换成线性问题。通过进行一个非线性变换（线性变换无法改变数据集的线性可分与不可分性），将非线性问题转换为线性问题，通过解变换后...

2018-11-09 09:31:40 1711

原创详解SVM系列（四）：线性支持向量机与软间隔最大化

线性支持向量机线性可分问题的支持向量机学习方法，对线性不可分训练数据是不适用的，因为这时上述方法的不等式约束并不能都成立。举2个例子：如果没有混入异常点，导致不能线性可分，则数据可以按上面的实线来做超平面分离的。这种情况虽然不是不可分的，但是由于其中的一个蓝色点不满足线性可分支持向量机中的不等式约束，导致模型的泛化效果很差。正常情况下（没有那个蓝色异常点）分离超平面应该是红色的那条线...

2018-11-01 15:45:33 1269

原创详解SVM系列（三）：线性可分支持向量机与硬间隔最大化

支持向量机概览（support vector machines SVM）支持向量机是一种二类分类模型。它的基本模型是定义在特征空间上的间隔最大（间隔最大区别于感知机）线性分类器（核函数可以用非线性的分类）。支持向量机的学习策略是间隔最大化可形式化为一个求解凸二次规划的问题。也等价于正则化的合页损失函数的最小化问题。支持向量机的学习算法是求解凸二次规划的最优化算法。支持向量机学习方法包含构...

2018-10-17 15:18:53 2096

原创详解SVM系列（二）：拉格朗日对偶性

拉格朗日函数有什么用？在约束最优化问题中，常常利用拉格朗日对偶性将原始问题转换为对偶问题，通过解对偶问题而得到原始问题的解。原始问题：假设f(x),Ci(x),hj(x)f(x),C_i(x),h_j(x)f(x),Ci(x),hj(x)是定义在RnR^nRn上的连续可微函数，考虑约束最优化问题：minf(x)，x∈Rnminf(x)，x∈R^nminf(x)，x∈Rns.t.ci(...

2018-10-15 17:44:59 658

原创详解SVM系列（一）：感知机

什么是感知机感知机是二类分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别，取+1和-1二值。感知机对应于输入空间（特征空间）中将实例分为正负两类的分离超平面，属于判别模型。感知机旨在求出将训练数据进行线性划分的分离超平面，为此，导入基于误分类的损失函数，利用梯度下降法对损失函数进行极小化，求得感知机模型。感知机模型定义：假设输入空间（特征空间）是χ...

2018-10-12 15:17:01 493

原创广义线性回归之逻辑斯谛回归（ Logistic Regression）

广义线性模型逻辑斯谛回归概念可以认为是属于广义线性回归的范畴，但它是用来进行分类的。线性模型的表达式为：f(x)=w0+w1x1+w2x2+...+wnxnf(x)=w_0+w_1x_1+w_2x_2+...+w_nx_nf(x)=w0+w1x1+w2x2+...+wnxn——（1）其中，x1 xnx_1~x_nx1 xn就是n个特征，作为模型的输入...

2018-10-10 18:12:48 1382

原创集成学习之boosting，Adaboost、GBDT 和 xgboost（三）

AdaBoost算法的解释——前向分步法与提升树(GBDT)可以认为AdaBoost算法是模型为加法模型，损失函数为指数函数、学习算法为前向分步算法时的二类分类学习方法。前向分步算法：考虑加法模型f(x)=∑m=1Mβmb(x;γm)f(x)=\displaystyle\sum_{m=1}^{M}β_mb(x;γ_m)f(x)=m=1∑Mβmb(x;γm) —— ...

2018-10-08 17:23:58 457

原创集成学习之boosting，Adaboost、GBDT 和 xgboost（二）

AdaBoost 算法的训练误差分析AdaBoost最基本的性质是它能在学习过程中不断减少训练误差，即在训练数据集上的分类误差率。定理：AdaBoost的训练误差界：1N∑i=1NI(G(xi))\frac{1}{N}\displaystyle\sum_{i=1}^{N}I(G(x_i))N1i=1∑NI(G(xi))...

2018-10-08 09:13:12 246

原创集成学习之boosting，Adaboost、GBDT 和 xgboost（一）

在前面的博客（https://blog.csdn.net/qq_16608563/article/details/82878127）介绍了集成学习的bagging方法及其代表性的随机森林。此次接着介绍集成学习的另一个方法boosting以及boosting系列的一些算法，具体包括 Adaboost、GBDT和xgboostboosting（提升）方法是一种常用的统计学习方法，应用广泛且有效。在...

2018-10-08 08:40:49 392

原创决策树面试知识点最全总结（五）——CART分类树

CART分类树用基尼指数选择最优特征，同时决定该特征的最优二值切分点。**基尼指数：**分类问题中，假设有K个类，样本点属于第k类的概率为pkp_kpk则概率分布的基尼指数定义为：Gini(p)=∑k=1Kpk(1−pk)=1−∑k=1Kpk2Gini(p) =\displaystyle\sum_{k=1}^{K}p_k(1-p_k)=1-\displaystyle\sum_{k=1}^{...

2018-10-08 08:39:56 1262

空空如也

空空如也