西瓜书读书笔记——模型评估与选择 1 、经验误差与过拟合我们把学习器的实际输出与样本的真实输出之间的差异称为"误差"学习器在训练集上的误差称为"训练误差" 或经验误差在新样本上的误差称为"泛化误差"显然,我们希望得到泛化误差小的学习器,然而,我们事先并不知道新样本什么样,实际能做的就是努力使经验误差最小化。我们实际希望的,是在新样本上能表现的很好的学习器,为了达到这个目的,应该从训练样本中尽可能学出适用于所有潜在样本的"...
深入理解梯度下降算法 下降方向:设x,d∈Rn.若存在数α>0,使得x,d∈R^n.若存在数α>0,使得x,d∈Rn.若存在数α>0,使得f(x+αd)<f(x)f(x+αd)<f(x)f(x+αd)<f(x)则称d是函数fff在点xxx处的一个下降方向。下降方向ddd从几何上可解释为:当点从xxx出发,沿着方向ddd移动时,函数fff的值的变化呈单调递减的趋势。梯度下降算...
简单而又奇妙的数值 引言尽管数值型数据已经很容易被数学模型所使用,但并不意味着不需要进行特征工程。好的特征不仅能够表示出数据的主要特点,还应该符合模型的假设,因此通常必须进行数据转换。数值型数据的特征工程技术是非常基本的,只要原始数据被转换为数值型特征,就可以应用这些技术。1: 需要对数值型数据进行合理性检查,首先要看看它的量级。2: 然后,还要考虑一下特征的尺度。它的最大值和最小值是多少?是否横跨多个数...
机器学习流程 几个基本概念数据数据时对现实世界的现象的观测任务收集数据的目的是因为有些问题需要靠数据找出答案由数据得到答案的过程有着复杂的路径,但是这个过程包括两个构成机器学习基础的数学实体:模型 和 特征模型数据的数学模型描述了数据不同部分之间的关系。例如股票价格的模型可以是一个公式,它将公司的收入历史、过去的股票价格和行业映射为预测的股票价格。数学公式将数值型的变量联系起来,但原始数据经常...
机器学习特征工程读书笔记-前言 简介特征工程处于哪个步骤呢?我觉得整个机器学习流程主要可以分为 数据采集、数据探索、数据预处理、建模、模型分析与优化和部署使用。特征工程大概位于数据预处理和建模之间,特征工程与数据预处理是有交叉的,为啥这么说呢?往下看一般来说,我们采集的数据时无法直接用于建模的,其中可能含有一些脏数据,比如缺失值、异常值或者不一致的值,这些脏数据可以通过数据探索和数据预处理来进行处理的。但是经过数据预处...
Spark大数据处理笔记二:Spark 计算模型 1 Spark程序模型1)SparkContext中的textFile函数从HDFS读取日志文件,输出变量fileval file=sc.textFile(“hdfs://xxx”)2)RDD中的filter函数过滤带“ERROR&quot;的行,输出errors(errors也是一个RDD)val errors = file.filter(line =&amp;gt; line.contains(“ERR...
网络基础 IP地址互联网协议地址(Internet Protocol Address)缩写为IP地址(IP Address)。IP地址是IP协议提供的一种统一的地址格式,它为互联网上的每一个网络和每一台主机分配一个逻辑地址,以此来屏蔽物理地址的差异。1)IP地址可以视为网络标识号码与主机标识号码两部分,因此IP地址可分两部分组成,一部分为网络地址,另一部分为主机地址2)IP地址用二进制来表示,每个IP地...
数据预处理 为什么需要数据预处理:1)在真实数据中,我们拿到的数据可能包含了大量的缺失值,可能包含大量的噪音,也可能因为人工录入错误导致有异常点存在,非常不利于算法模型的训练。2)数据预处理的目的是对各种脏数据进行对应方式的处理,得到标准的、干净的、连续的数据,提供给数据统计、数据挖掘等使用。数据处理如何做1)标准化:去平均值 和方差缩放(Standardization, or mean remova...
模型选择与评估 交叉验证:评估估计器性能为了防止出现过拟合的情况,一般需要将数据分为训练集和测试集。在Sklearn中可以利用train_test_split()函数来划分数据集。import numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn import datasetsfrom sklearn i...
梯度下降与随机梯度下降深入理解 1基础知识:偏导数与方向导数:对于多元函数,如果说偏导数表示的是多元函数在沿坐标轴的变化率,那么可以说方向导数是沿着任意指定的方向的变化率,不一定是沿着坐标轴。方向导数:讨论下函数z=f(x,y)z=f(x,y)z=f(x,y)在一点PPP沿着某一方向的变化率问题。定义:设函数z=f(x,y)在点P(x,y)的某一邻域U(p)内有定义,自点P引射线l.设x轴正向到射线l的转角为φ,并设P...
数据降维——主成分分析PCA 一:预备知识向量向量的内积与投影:两个向量A, B 内积的计算公式为:A▪B=∣A∣∣B∣cos(α)A▪B=|A||B|cos(α)A▪B=∣A∣∣B∣cos(α)1)向量内积的几何解释就是:向量A在向量B上的投影长度(∣A∣cos(α)|A|cos(α)∣A∣cos(α))乘以向量B的模特别的,如果一个向量如a是某个坐标轴的单位向量,那么两个向量的内积a▪ba▪ba▪b就是向量在此...
模型选择的方法——正则化与交叉验证 在典型的机器学习应用中,为进一步提高模型在预测未知数据的性能,还要对不同的参数设置进行调优与比较,该过程称为模型选择,指的是针对某一特定问题,调整参数以寻求最优超参数的过程。偏差:描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据集。学习算法的期望预测为(学习不变,模型参数不变,期望是针对数据集而言的,同样的算法不同的数据集)f(x)=ED[f(x;D)]]f(x)=E...
zookeeper学习总结(一) 背景知识该部分主要介绍什么是分布式系统以及分布式系统存在哪些问题?随着互联网技术的发展,导致大型网站需要的计算能力和存储能力越来越高,网站架构逐渐从集中式转变为分布式。1.什么是分布式分布式系统是一个硬件或软件组件分布在不同的网络计算机上,彼此之间仅仅通过消息传递进行通信和协调的系统一个标准的分布式系统应该具有以下几个主要特点:分布性:分布式系统中的多台计算机之间在空间位置上可以随意分...
Kafka基础知识 消息和批次Kafka的数据单元被称作消息。1)可以把消息看成是数据库里的一个“数据行”或一条“记录”。2)消息由字节数组组成,所以Kafka的消息里的数据没有特别的格式或含义。3)消息有一个可选的元数据,也就是键。当消息以一种可控的方式写入不同的分区时,会用到键。为了提高效率,消息被分批次写入Kafka。批次就是一组消息,这些消息属于同一个主题和分区。1)把消息分成批次传输可以减少网络...
Spark大数据处理读书笔记一:Spark简介 1.1 Spark是什么Spark是基于内存计算的大数据并行计算框架,是一个用来实现快速而通用的集群计算平台。Spark 之于 Hadoop:Spark是一个计算框架,而Hadoop中包含计算框架MapReduce和分布式文件系统HDFS,Hadoop更广泛的说还包含其生态系统上的其他系统,如Hbase、Hive等。Spark是MapReduce的替代方案,而且兼容HDFS、Hive等分...
神经网络 神经元模型神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。神经网络中最基本的成分是神经元模型,即上述定义中的“简单单元”。M-P神经元模型:在这个模型中,神经元接收到来自n个其他神经元传递过来的输入信号,这些输入信号通过带权重的连接进行传递,神经元接收到的总输入值将与神经元的阀值进行比较,然后通过“激活函数”处理以产生神经...
推荐系统实践读书笔记(一):好的推荐系统 设计一个推荐系统之前,一定要了解什么样的推荐系统才是好的推荐系统至关重要。那么一个优秀的推荐系统具有哪些特征呢?(量化或者概念性的特征)通过以下三个步骤回答一个优秀的推荐系统是什么样的1)什么是推荐系统、推荐系统的主要任务、推荐系统和分类目录以及搜索引擎的区别2)不同领域分门别类的介绍目前业界常见的个性化推荐应用3)介绍推荐系统的评测什么是推荐系统首先书中引入了一个买花生米的例子,你可...
密度聚类和层次聚类 密度聚类K-Means算法、K-Means++ 算法和Mean Shift 算法都是基于距离的聚类算法,基于距离的聚类算法的聚类结果都是球状的簇当数据集中的聚类结果是非球状结构是,基于距离的聚类效果并不好基于密度的聚类算法能够很好的处理非球状结构的数据,与基于距离的聚类算法不同的是,基于密度的聚类算法可以发现任意形状的簇类。在基于密度的聚类算法中,通过在数据集中寻找别低密度区域分离的高密度...
聚类之meanshift算法 在K-Means 算法中,最终的聚类效果受初始的聚类中心的影响,K-Means++算法的提出,为选择较好的初始聚类中心提供了依据(选择的的初始聚类中心尽可能的远)但是算法中,聚类的类别个数K仍需事先确定,对于类别个数事先未知的数据集,K-Means和K-Means++将很难对其精确求解。Mean Shift 算法,又被称作均值漂移算法,与K-Means算法一样,都是基于聚类中心的聚类算法。优...
原型聚类 原型聚类也称作“基于原型的聚类”,此类算法假设聚类结构可以通过一组原型刻画,在现实任务中极为常见。(“原型”是指样本空间中具有代表性的点)通常情况下,算法先对原型进行初始化,然后对原型进行迭代更新求解。采用不同的原型表示、不同的求解方式,将产生不同的算法,下面介绍几种著名的原型聚类算法。k均值算法给定样本集D={x1,x2,……xm}D=\{x_1,x_2,……x_m\}D={x1,x...