机器学习
文章平均质量分 92
机器学习
有梦想的雨
这个作者很懒,什么都没留下…
展开
-
SVM——支持向量机(二)
硬间隔SVM之前的描述都是基于数据是线性可分的情况。但是实际上并不能保证总是线性可分的;并且全部线性可分的分隔面并不一定是最好的,如下图所示,尽管实线实现了全部分隔,但其间隔很小,有轻微扰动时将会发生误判。相比之下,虚线的分隔面要更好一些。为使得模型能够适应非线性数据集,同时对离群点不那么敏感,将优化模型进行 l1l_1l1 正则化如下:但是,当变量的特征维数迅速扩大时,其特征的组合数也会急速扩大,如令 ϕ(x)\phi(x)ϕ(x) 是三次幂之下的特征组合时,当 xxx 只有三个维度,那么 ϕ(x)原创 2022-06-29 22:59:54 · 506 阅读 · 1 评论 -
SVM——支持向量机(一)
SVM 是是一种二分类模型,基本模型是的定义在特征空间上的间隔最大的线性分类器,SVM的学习策略就是间隔最大化。以逻辑回归为例,hθ(x)=g(θTx)=11+e−θTx\displaystyle h_\theta(x)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}}hθ(x)=g(θTx)=1+e−θTx1,特征组合经过 sigmoid 函数被映射到 [0,1][0,1][0,1] 之间。对于二分类问题,即可被视为概率,{p(y=1∣x;θ)=hθ(x),p(y=0∣x原创 2022-06-29 16:45:46 · 851 阅读 · 0 评论 -
模型评估与选择
具体的训练集、验证集、测试集不做过多描述。偏差:预计值的期望与真实值之间的差异。排除噪声的影响,偏差更多的是针对某个模型输出的样本误差,是模型无法准确表达数据关系导致的,比如模型过于简单,非线性的数据关系采用线性模型建模,偏差较大的模型是错的模型。方差:预测值的离散程度,也就是离其期望值的距离。模型方差不是针对某一个模型输出样本进行判定,而是指多个(次)模型输出的结果之间的离散差异。这里说的多个模型或者多次模型,即不同模型或同一模型不同时间的输出结果方差较大。方差是由训练集的数据不够导致,一方面 数据样本数原创 2022-06-27 23:43:36 · 634 阅读 · 0 评论 -
自然语言处理综述
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。NLP是一门融语言学、计算机科学、数学于一体的科学,涉及自然语言(即人们日常使用的语言),所以它与语言学的研究有着密切的联系,但又有重要的区别。但NLP并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统,因此又和计算机科学密不可分。早期,自然语言处理中存在着两种不同的研究方法,分别是基于规则的符号主义和基于概率的随机统计经验主义两种不同的原创 2022-06-26 11:04:28 · 5141 阅读 · 1 评论 -
时间序列分析
时间序列是一组按时间顺序排列的观测值 y1,y2,⋯ ,yty_1,y_2,\cdots, y_ty1,y2,⋯,yt。预测 是在给定所有当前信息(包括历史数据和可能影响这些事件的任何未来事件的知识)的情况下,对未来事件和条件的预测。预测可以为商业和经济决策、计划和政府政策提供信息。预测的目标是 在给定观测序列直到现在的时间 ttt,预测时间索引在未来点 t+ht + ht+h 的响应变量。也就是说,给定 y1,y2,⋯ ,yty_1,y_2,\cdots, y_ty1,y2,⋯,yt,预测原创 2022-06-21 20:00:59 · 1683 阅读 · 0 评论 -
分类(classification)
在分类中,使用一个 C×CC\times CC×C 的损失矩阵 LLL来表达损失函数,其中,CCC 指类别数。损失矩阵中的每个元素 Lkl=L(k,l)L_{kl}=L(k,l)Lkl=L(k,l) 指将实际类别属于 kkk,但是将其分类到 lll 的损失。常用的损失函数为 0−10-10−1 损失函,其中 Lkl={1,k≠l0,k=l\displaystyle L_{kl}=\left\{ \begin{aligned} 1, && k\neq l \\ 0, && k=l\end{align原创 2022-06-05 23:08:50 · 426 阅读 · 0 评论 -
K近邻法(KNN)
KNN(K近邻方法)原创 2022-06-02 22:08:25 · 2163 阅读 · 0 评论 -
线性回归(Linear Regression)
线性回归原创 2022-06-02 16:00:23 · 527 阅读 · 0 评论 -
商业分析过程
使用业务理解工具有助于对业务的理解: 如双钻石模型(The Double Diamond process),五问法(the Five Why technique)。实际情况下,商业分析是一个学习和发现的递归过程。整个过程可能需要定期重复和更新,因为业务世界总是在不断变化。在商业分析中,预测性建模对商业决策是否成功有着至关重要的作用,原因如下:(1)大数据时代。互联网和数据采集设备(如移动电话、照相机、传感器、读卡器等)的出现,加上存储成本的大幅降低,带来了前所未有的数据可用性,数据集的规模继续大幅增长。原创 2022-06-02 09:53:31 · 743 阅读 · 0 评论 -
神经网络训练算法
1. 传统优化问题大多数深度学习算法都涉及某种形式的优化。优化指的是改变 xxx 以最小化或最大化某个函数 f(x)f(x)f(x) 的任务。通常以最小化 f(x)f(x)f(x) 指代大多数最优化问题。最大化可经由最小化算法最小化 −f(x)- f(x)−f(x) 来实现。通常,把要最小化或最大化的函数 f(x)f(x)f(x) 称为 目标函数(objective function)、代价函数(cost function)、损失函数(loss function)或误差函数(error function原创 2022-05-31 22:56:21 · 2614 阅读 · 1 评论 -
循环神经网络(Recurrent Neural Network, RNN)
基本概念一般的神经网络(BP以及CNN)只对预先确定的大小起作用:它们接受固定大小的输入并产生固定大小的输出。它们的输出都是只考虑前一个输入的影响而不考虑其它时刻输入的影响, 比如简单的猫,狗,手写数字等单个物体的识别具有较好的效果。但是, 对于一些与时间先后有关的, 比如视频的下一时刻的预测,文档前后文内容的预测等, 这些算法的表现就不尽如人意了。循环神经网络 (Recurrent Neural Network, RNN) 一般是指时间递归神经网络而非结构递归神经网络 (Recursive Neura原创 2022-05-29 18:11:30 · 5654 阅读 · 0 评论 -
卷积神经网络(convolutional neural network, CNN)
基本定义卷积神经网络(convolutional neural network, CNN),是一类包含卷积计算且具有深度结构的前馈神经网络。卷积神经网络是受生物学上感受野(Receptive Field)的机制而提出的。卷积神经网络专门用来处理具有类似网格结构的数据的神经网络。例如,时间序列数据(可以认为是在时间轴上有规律地采样形成的一维网格) 和图像数据(可以看作是二维的像素网格)。1.卷积层(convolutional layer)作用:特征提取卷积层内部包含多个卷积核,组成卷积核的每个元素都原创 2022-05-28 17:02:35 · 67036 阅读 · 11 评论 -
误差反向传播算法(BP,Back-Propagation algorithm)(二)
有关BP算法的原理及推导可参见**误差反向传播算法(BP,Back-Propagation algorithm)(一)*BP算法分析利用 BP 算法对网络进行训练,每一次前向传播,则必有一次后向传播来修改网络权值;后向传播的计算代价和前项是一致的,因此BP网络的计算代价是前向网络的两倍。BP网络具备很强的非线性映射能力,能够学习和存储大量输入—输出模式映射,而无须存在描述这种映射关系的数学方程。同时,假定隐层的节点可以根据需要自由设置,那么三层的 Sigmoid 激活函数的网络可以以任意精度逼近任何连原创 2021-12-31 10:54:25 · 904 阅读 · 0 评论 -
误差反向传播算法(BP,Back-Propagation algorithm)(一)
多层感知器网络(MLP)的设计1.选定层数:通常采用三层网络(因为增加网络层数并不能提高网络的分类能力;2.输入层:输入层节点数为输入特征的维数 n, 激活函数采用线性函数;3.隐层:隐层可实现非线性分类,其节点数需要设定;一般的,隐层节点数越多,网络的分类能力就越强,激活函数一般采用 Sigmoid 函数;4.输出层:输出层节点数可以等于类别数,也可采用编码输出的方式(少于类别数),激活函数可使用线性函数或Sigmoid 函数。如上图所示,该三层网络的判别函数形式为Y3=f3(∑k=1n2w原创 2021-12-30 21:27:42 · 1114 阅读 · 0 评论 -
机器学习——感知器
单个感知器一个最简单的感知器示意图如下所示:功能描述设样本集 X={X1,X2,⋯ ,Xi,⋯ ,Xm}\mathbf X=\{X_1,X_2,\cdots,X_i,\cdots,X_m\}X={X1,X2,⋯,Xi,⋯,Xm},记输入向量 Xi=X=(x1,x2,⋯ ,xn)TX_i=X=(x_1,x_2,\cdots,x_n)^TXi=X=(x1,x2,⋯,xn)T,则输入向量可表示为高维空间中的一个点;感知器 jjj 对应的权重为 wj=(w1j,⋯ ,wnj)Tw_j=(w_原创 2021-12-29 21:07:30 · 1955 阅读 · 0 评论 -
神经网络的结构
单一的神经元能够学习的函数是有限的,仅仅能学习线性可分的很熟;当学习非线性的复杂函数时,就要用到神经网络。同一层的神经元在两方面是相同:(一)同一层中的神经元连接着相同的源头,即他们的接收的信息是相同的;(二)同一层中的神经元有着相同的动态更新机制。即同一层中的神经元有着相同的连接源头、目的和相同的激活函数。一个神经网络中有两种权重:层内权重(intralayer weights)(intralayer \; weights)(intralayerweights)——指在同一层中神经元之间的权重;层原创 2021-12-29 11:53:29 · 1069 阅读 · 0 评论 -
神经网络——神经元
神经网络的概念在此不做过多阐述,其应用领域包括:分类——即预测输入向量的类别;模式匹配——即产生与给定输入向量最佳关联的模式;模式完成——其目的是完成给定输入向量的缺失部分;优化——即找到优化问题中参数的最优值;控制——给定一个输入向量,得到建议的合适行为;函数拟合 / 时间序列模型——学习输入与输出之间的函数关系;数据挖掘——挖掘数据背后的模式(信息).....................一个神经完了实现的是一个从 RI\mathbb R^IRI 到 RK\mathbb R^K原创 2021-12-28 17:36:04 · 5225 阅读 · 0 评论 -
神经网络——激活函数
激活函数激活函数 fANf_{AN}fAN 接收节点输入信号和偏差,以 x=net−θx=net-\thetax=net−θ 表示,决定输出。一个好的激活函数需要满足以下条件:(1)非线性,即导数不是常数,其目的在于保证多重网络不退化成单层线性网络;(2)几乎处处可微:可微性保证了再梯度优化中梯度的可计算性;(3)计算简单:激活函数在神经网络前向传播过程中的使用次数与神经元的个数成正比,因此保证其计算的简单性是很有必要的;(4)非饱和性(saturation):饱和指的是在某些区间梯度接近于零(原创 2021-12-28 16:00:53 · 1081 阅读 · 0 评论 -
聚类——基于层次的聚类算法
基于层次的聚类算法(Hierarchical Clustering)当不知道应该分为几类时,使用层次聚类比较适合。层次聚类会构建一个多层嵌套的分类,类似一个树状结构。可以选择一个聚类数量,根据需求对树状图中画一条水平线,得到对应的聚类。自底向上的聚类从点作为个体簇开始,迭代时每一步合并两个最接近的簇,直到所有样本合并为一簇。基本步骤:每个样本点自成一类。选择最近的两个类聚成一类。计算新的类与类之间的距离。重复第 2、3 步直至所有的样本点聚为一类。初始时,每个簇只有一个样本,搜索相原创 2021-12-24 14:03:32 · 4649 阅读 · 0 评论 -
聚类——基于距离阈值的聚类算法
基于距离阈值的聚类算法1.最大最小距离算法算法思想对待分类模式样本集以最大距离选取新的聚类中心,以最小距离原则进行模式归类。算法步骤从N个样本集中的任选取一个样本,作为第一个聚类中心 z1z_1z1;选取距离第一个聚类中心 z1z_1z1 最远的样本作为第二个聚类中心 z2z_2z2;计算剩余样本与 z1,z2z_1,z_2z1,z2之间的距离,并求出他们中的最小值,即:dij=∣∣xi−zj∣∣, j=1,2 ; di=min[di1,di2], i原创 2021-12-23 17:26:16 · 4809 阅读 · 0 评论 -
聚类——总述
聚类(Clustering)的基本概念聚类属于无监督学习,在聚类前数据没有分类或分组信息。聚类是寻找数据之间内在结构,按照特定标准(如距离准则、相似性系数)把全体数据样本组织成一些相似簇;使得处于相同簇中的数据样本彼此相似性尽可能大,处于不同簇中的样本彼此差异性尽可能地大。聚类的结果在很大程度上取决于事先设定的参数(如类别,初始点等),例如:聚类性能好坏的度量类内相似度高,类间相似度低。度量聚类结果好坏的依据有:可测量性、处理不同类型样本的能力、发现任意形状簇的能力、输入参数所需的先验知识、处理噪声原创 2021-12-20 21:12:33 · 2482 阅读 · 0 评论
分享