![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 65
Running_Tiger
这个作者很懒,什么都没留下…
展开
-
机器学习三次浪潮
机器学习三次浪潮机器学习的三次浪潮也可以说是人工智能的三次浪潮,因为机器学习是人工智能(Artificial Intelligence)研究发展到一定阶段的必然产物。1956 Artificial Intelligence 提出 1956 年夏季,以麦卡赛、明斯基、罗切斯特和申农等为首的一批有远见卓识的年轻科学家在一起聚会,共同研究和探讨用机器模拟智能的一系列有关问题,并首次提出了“人工智能”这原创 2018-03-22 13:24:35 · 4651 阅读 · 0 评论 -
PCA主成分分析
PCA主成分分析PCA(Principal Component Analysis,主成分分析): 把数据从原来的坐标系转换到新的坐标系,新坐标系的选择由数据本身决定。如 PCA 主成分分析的 应用领域包括:股票交易市场数据的探索性分析、生物信息学领域的基因组和基因表达水平数据分析等。PCA 可以帮助我们识别出基于特征之间的关系识别出数据内在的模式。从 数学层面理解,PCA 的目标就是在高维数据中找原创 2018-04-08 23:26:55 · 979 阅读 · 0 评论 -
LDA 线性判别分析模型
LDA 线性判别分析模型线性判别分析(Linear Discriminant Analysis,LDA)是一种可作为特征抽取的技术,可以提高数据分析过程中的计算效率,同时对于不适用于正则化的模型,它可以降低模型灾难带来的过拟合。1、LDA 的概念与 PCA 区别与联系1.PCA 试图在数据集中找到方差最大的正交主成分量的轴,而 LDA 的目标是发现可以最优化分类的特征子空间。LDA 和 PCA 都原创 2018-04-08 23:36:44 · 1076 阅读 · 0 评论 -
SVD 奇异值分解
SVD 奇异值分解SVD 奇异值分解提供了一个矩阵拆分成简单有意义的几块的一种方法。SVD可以用于图像压缩,去噪,也是 PCA 的数学基础。1、主要内容 Python 实现 SVD>>>A=mat([[1,2,3],[4,5,6]])>>> from numpy import linalg as la>>> U,sigma,VT=la.svd(A)>>> print Umatrix([[原创 2018-04-08 23:51:49 · 475 阅读 · 0 评论 -
KernelPCA进行非线性数据的映射和分类
KernelPCA进行非线性数据的映射和分类1、线性与非线性问题 2、分类半月形数据2.1、准备半月形数据2.2、使用 PCA 解决半月数据分类并可视化显示 2.3、使用 Kernel-PCA 解决半月数据分类并可视化显示 3、分类同心圆数据3.1、准备同心圆数据3.2、PCA 对同心圆数据进行分类 3.3、KernelPCA 对同心圆数据进行分类 喜欢就点赞评论+关注吧感谢阅读,希望能帮原创 2018-04-09 00:05:57 · 1158 阅读 · 0 评论 -
GBDT 简单实现
GBDT 简单实现实战梯度提升决策树(Gradient Boosting Decision Tree,GBDT)算法是近年来被提及比较多的一个算法,这主要得益于其算法的性能,以及该算法在各类数据挖掘以及机器学习比赛中的卓越表现,有很多人对GBDT算法进行了开源代码的开发,比较火的是XGBoost和微软的LightGBM。实战# -*- encoding: utf-8 -*-'''# @a...原创 2018-12-03 17:39:59 · 1569 阅读 · 0 评论 -
SGD 简单实现
梯度下降法SGD 简单实现梯度下降法,梯度下降法是机器学习中最常用的优化算法,就是利用负梯度方向来决定每次迭代的新的搜索方向,使得每次迭代(步长)能使待优化的目标函数逐步减小。一个多元函数的梯度方向是该函数值增大最陡的方向,在一元函数中,梯度方向是沿着切线方向;而在多元函数中,梯度向量是函数值f对每个变量的导数,向量的方向就是梯度方向。# TODO:梯度下降,代码实现XOld = 0XN...原创 2018-12-03 18:01:48 · 4035 阅读 · 0 评论 -
Spark MLlib线性回归简单实现
Spark MLlib线性回归简单实现Spark MLlib线性回归简单实现一、训练数据二、实战代码三、线性回归预测及预测误差Spark MLlib线性回归简单实现一、训练数据普通标签数据,数据格式:“标签,特征值1 特征值2 特征值3…”训练数据lpsa.data如下:-0.4307829,-1.63735562648104 -2.00621178480549 -1.862425972...原创 2019-04-26 09:34:01 · 3357 阅读 · 1 评论 -
Spark MLlib FPGrowth关联规则算法实现
Spark MLlib FPGrowth关联规则算法实现一、基本概念1、项与项集2、关联规则3、支持度4、置信度5、提升度二、FPGrowth算法1、构造FP树2、FP树的挖掘三、训练数据四、实战代码五、运行结果一、基本概念1、项与项集这是一个集合概念,在一个篮子商品中的一件消费品即一项(iten),若干项的集合为项集,如{啤酒,尿布}构成一个二元项集。2、关联规则关联规则用于表示数据内...原创 2019-04-26 11:11:18 · 1479 阅读 · 0 评论 -
Spark MLlib ALS交替最小二乘法算法实现
这Spark MLlib ALS交替最小二乘法算法实现一、训练数据二、实战代码三、运行结果ALS是交替最小二乘法(alternating least squares)的简称。在机器学习的上下文中,ALS特指使用交替最小二乘法求解的一个协同推荐算法。它通过观察到的所有用户给产品打分,来推断每个用户的喜好并向用户推荐适合的产品。一、训练数据数据格式:用户ID,物品ID,评分1,1,5.01,...原创 2019-05-05 16:39:52 · 990 阅读 · 1 评论 -
特征降维
特征降维特征降维,有时候也称之为特征抽取(用于降维的特征选择方法)或数据压缩,因为现实生活中产生的数据是越来越多,数据压缩技术可以帮助我们对数据进行存储和分析。特征降维是无监督学习的另一个应用,目的有 2:(1)我们会经常在实际项目中遭遇特征维度非常之高的训练样本,而往往又无法借助自己的领域知识人工构建有效特征;(2)在数据表现方面,我们无法用肉眼观测超过三个维度的特征。因此,特征降维不仅仅重构了有原创 2018-04-08 22:59:21 · 8639 阅读 · 0 评论 -
R区别Python优劣
R区别Python各有优劣喜欢就点赞评论+关注吧感谢阅读,希望能帮助到大家,谢谢大家的支持!原创 2018-03-23 20:35:43 · 702 阅读 · 0 评论 -
机器学习三要素之策略
策略1、经验风险2、经验风险最小化3、结构风险4、结构风险最小化5、正则化 喜欢就点赞评论+关注吧感谢阅读,希望能帮助到大家,谢谢大家的支持!原创 2018-03-23 20:28:47 · 522 阅读 · 0 评论 -
机器学习几个重要概念的区别
机器学习几个重要概念的区别1、人工智能、机器学习、深度学习的关系【笔记】机器学习是人工智能的一个分支,深度学习是实现机器学习的一种技术。机器学习是研究如何使计算机能够模拟或实现人类的学习功能,从大量的数据中发现规律,提取知识,并在实践中不断地完善和增强自我。机器学习是机器获取知识的根本途径,只有让计算机系统具有类似人的学习能力,才可能实现人工智能的终极目标。机器学习是人工智能研究的核心问题之一,也是原创 2018-03-22 13:42:03 · 564 阅读 · 0 评论 -
机器学习 基本术语
基本术语以西瓜数据集为例进行练习:要进行机器学习,先要有数据。假定我们收集了一批关于西瓜的数据: {颜色=乌黑,敲声=浊响} {颜色=青绿,敲声=清脆}【基础概念 1】将这组记录的集合称为一个“ 数据集”(data set),其中每条记录是关于一个事件或对象(这里说的是西瓜)的描述,也称为一个“样本”(sample)。【基础概念 2】而我们所说的西瓜的色泽,这种可以反应事件...原创 2018-03-22 14:17:32 · 564 阅读 · 0 评论 -
全导数、偏导数、方向导数
全导数、偏导数、方向导数1、全导数全导数本质上就是一元函数的导数。他是针对复合函数而言的定义。 一元函数的情况下,导数就是函数的变化率,从几何意义上看就是:但是在多元的情况下比一元的复杂,下面用二元函数来举例,比如这样一个曲面上的一点A :在曲面上可以做无数条过A 点的曲线每根曲线都可能可以作一根切线,比如:全导数的意义:每一根切线都和一个全导数“相关”,A点有无数个全导数。2、参数方程2.1、通原创 2018-03-23 00:45:20 · 20924 阅读 · 2 评论 -
监督学习
监督学习监督学习(supervised learning)从训练数据(training data)集合中学习模型,对测试数据(test data)进行预测。术语解释: 监督( (supervised )是指训练数据集中的每个样本均有一个已知的输出项(类标 label),也就是上述的输出 Y 值。 输入变量 X 和输出变量 Y 有不同类型,可以是连续的,也可以是离散的。人们根据输入、输出变量不同类原创 2018-03-23 01:00:54 · 836 阅读 · 0 评论 -
无监督学习
无监督学习【基础概念】通俗地讲:非监督学习(unsupervised learning)指的是人们给机器一大堆没有分类标记的数据,让机器可以对数据分类、检测异常等。1、通过聚类发现数据的子群【念 基础概念 8】聚类是一种探索性数据分析技术,在没有任何相关先验信息的情况下(相当于不清楚数据的信息),它可以帮助我们将数据划分为有意义的小的别 组别(也叫簇 cluster)。其中每个簇内部成员之间有一定的原创 2018-03-23 16:24:53 · 375 阅读 · 0 评论 -
半监督学习
半监督学习半监督学习的现实需求也非常强烈,因为在现实生活中往往能容易地收集到大量未“标记”的样本,而获取有标记的样本却需要耗费人力、物力。在互联网应用的最为明显,例如在进行网页推荐时需要请用户标记出感兴趣的网页,但是很少的用户愿意花很多时间来提供标记,因此,有标记的网页样本少,但互联网上存在无数网页可作为未标记样本使用。半监督学习就是提供了一条利用“廉价”的未标记样本的途径。通常在处理未标记的数据时原创 2018-03-23 16:28:00 · 1042 阅读 · 0 评论 -
强化学习
强化学习【基础概念】强化学习(Reinforcement Learning)是机器学习的一个重要分支,主要用来解决连续决策的问题。比如围棋可以归纳为一个强化学习问题,我们需要学习在各种局势下如何走出最好的招法。还有我们要种西瓜的过程中需要多次种瓜,在种瓜过程中不断摸索,然后才能总结出好的种瓜策略,将例子中的过程抽象出来就是“强化学习”。强化学习不像无监督学习那样完全没有学习目标,又不像监督学习那样有原创 2018-03-23 16:32:32 · 947 阅读 · 0 评论 -
构建机器学习系统
构建机器学习系统我们使用机器学习预测模型的工作流程讲解机器学习系统整套处理过程。整个过程包括了数据预处理、模型学习、模型验证及模型预测。其中数据预处理包含了对数据的基本处理,包括特征抽取及缩放、特征选择、特征降维和特征抽样;我们将带有类标的原始数据划按照 82 原则分为训练数据集和测试集。使用训练数据集用于模型学习算法中学习出适合数据集的模型,再用测试数据集用于验证最终得到的模型,将模型得到的类标签原创 2018-03-23 18:34:11 · 3863 阅读 · 0 评论 -
模型选择
模型选择一个模型可能有很多种情况出现,那么我们如何选择最优的模型呢?1、哪条曲线拟合效果是最好的? 2、 泛化机器学习的目标是使学得的模型能很好地适用于“新样本”,而不是仅仅在训练样本上工作的很好;即便对聚类这样的无监督学习任务,我们也希望学得的簇划分能适用于没在训练集中出现的样本。学得模型适用于新样本的能力,称为“泛化”(generalization)能力。具有强泛化能力的模型能很好地适用于整个原创 2018-03-23 19:50:51 · 8065 阅读 · 0 评论 -
Spark MLlib协同过滤推荐算法实现
Spark MLlib协同过滤推荐算法实现一、算法概述一、算法概述原创 2019-05-06 15:22:06 · 6284 阅读 · 10 评论