学习笔记
Siven_L
live long and prosper
展开
-
大数据机器学习-chapter 7-决策树与随机森林
决策树(Decision Tree)是一种简单但是广泛使用的分类器。通过训练数据构建决策树,可以高效的对未知的数据进行分类。决策树模型的特点1、模型具有可读性,分类速度快,推理过程容易理解2、决策推理过程可以表示成If Then形式3、可以认为是定义在特征空间与类空间上的条件概率分布4、推理过程完全依赖于属性变量的取值特点5、可自动判断属性变量的重要性,忽略对目标变量没有贡献的属性...原创 2019-04-04 11:25:11 · 555 阅读 · 0 评论 -
感知机学习算法的实现以及收敛性的简单证明
感知机分为原始形式和对偶形式两种,是针对二分类问题,利用分离超平面进行分类的判别模型。分类策略与方法是基于误分类的损失函数,利用梯度下降对损失函数进行极小化。感知机具有简单易于实现的特点。定义:假设输入空间(特征空间)是 χ ⊆ Rn,输出空间是y=(+1,−1)。输入χ∈X表示实例的特征向量,对应于输入空间的点;输出y∈γ表示实例的类别。由输入空间到输出空间的如下函数:称为感知机。其...原创 2019-04-18 11:52:33 · 2439 阅读 · 0 评论 -
奇异值分解(SVD)原理与在降维中的应用
转载:刘建平Pinard奇异值分解(Singular Value Decomposition,以下简称SVD)是在机器学习领域广泛应用的算法,它不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域。是很多机器学习算法的基石。本文就对SVD的原理做一个总结,并讨论在在PCA降维算法中是如何运用运用SVD的。1. 回顾特征值和特征向量我们首先回顾下特征值和特征向量的定...原创 2019-05-19 17:02:44 · 250 阅读 · 0 评论 -
局部线性嵌入 (Locally linear embedding-LLE)原理总结
局部线性嵌入(Locally Linear Embedding) 是非常重要的姜维方法。与传统的PCA,LDA等关注样本方差的降维方法相比,LLE关注降维时保持样本局部的线性特征,由于这个特性,它广泛运用于图像识别,高维数据可视化等领域。1· 流形学习概述LLE属于流形学习(Manifold Learning)的一种。流形学习是一大类基础流形的框架。数学意义上的流形比较抽象,不过我们可以认为...原创 2019-05-22 16:48:09 · 3795 阅读 · 1 评论 -
Apriori算法原理总结
转载Aprior算法是常用的用于挖掘出数据关联规则的算法,它用来找出数据值中频繁出现的数据集合,找出这些集合的模式有助于我们做一些决策。比如在常见的超市购物数据集,或者电商的网购数据集中,如果我们找到了频繁出现的数据集,那么对于超市,我们可以优化产品的位置摆放,对于电商,我们可以优化商品所在的仓库位置,达到节约成本,增加经济效益的目的。下面我们就对Apriori算法做一个总结。1.频繁项集...原创 2019-06-03 17:42:44 · 956 阅读 · 0 评论 -
FP Tree算法原理
作为一个挖掘频繁项集的算法,Apriori算法需要多次扫描数据,I/O是很大的瓶颈。为了解决这个问题,FP Tree算法(也称FP Growth算法)采用了一些技巧,无论多少数据,只需要扫描两次数据集,因此提高了算法运行的效率。下面我们就对FP Tree算法做一个总结。1. FP Tree数据结构为了减少 I/O 次数,FP Tree算法引入了一些数据结构来临时存储数据。这个数据结构包括三...原创 2019-06-17 09:59:57 · 5860 阅读 · 1 评论 -
矩阵分解在协同过滤推荐算法中的应用以及简单的代码实现
转载出处代码出处1. 矩阵分解用于推荐算法要解决的问题在推荐系统中,常常遇到用户-物品矩阵稀疏性问题,即:有很多用户和物品,也有少部分用户对少部分物品的评分,我们希望预测目标用户对其他未评分物品的评分,进而将评分高的物品推荐给目标用户。比如下面的用户物品评分表:用户\物品物品1物品2物品3物品4物品5物品6物品7用户13-5--1-用户...原创 2019-06-11 17:28:25 · 1141 阅读 · 0 评论