![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
loveliuzz
这个作者很懒,什么都没留下…
展开
-
利用Python,四步掌握机器学习
为了理解和应用机器学习技术,你需要学习 Python 或者 R。这两者都是与 C、Java、PHP 相类似的编程语言。但是,因为 Python 与 R 都比较年轻,而且更加“远离”CPU,所以它们显得简单一些。相对于R 只用于处理数据,使用例如机器学习、统计算法和漂亮的绘图分析数据, Pthon 的优势在于它适用于许多其他的问题。因为 Python 拥有更广阔的分布(使用 Jango 托管网站,自转载 2017-07-06 18:33:57 · 423 阅读 · 0 评论 -
机器学习sklearn19.0——梯度下降算法
梯度下降详细可参考链接:https://www.cnblogs.com/pinard/p/5970503.html一、梯度下降算法原创 2017-12-17 10:07:51 · 2182 阅读 · 0 评论 -
机器学习sklearn19.0——线性回归算法
一、回归算法的定义与认识二、线性回归1、线性回归相关公式原创 2017-12-17 10:06:28 · 1052 阅读 · 0 评论 -
python3机器学习——sklearn0.19.1版本——数据处理(一)(数据标准化、tfidf、独热编码)
一、数据标准化1、StandardScaler原创 2017-11-21 16:04:51 · 5663 阅读 · 0 评论 -
python3机器学习——sklearn0.19.1版本——数据处理(二)(多项式、pipeline、分类模型评价标准)
一、数据变换——多项式 sklearn.preprocessing.PolynomialFeatures类实现多项式的数据转换。用于产生多项式,并且多项式包含的是相互影响的特征集。比如:一个输入样本是2维的。形式如[a,b],则二阶多项式的特征集为[1,a,b,a^2,ab,b^2]。 #!/usr/bin/env python# -*- coding:utf-8 -*...原创 2017-11-21 19:34:43 · 2801 阅读 · 0 评论 -
机器学习——非线性回归( Logistic Regression)及应用
1、概率(1)定义:概率(Probability):对一件事情发生的可能性的衡量。(2)取值范围:0(3)计算方法:根据个人置信、根据历史数据、根据模拟数据(4)条件概率:在事件B已经发生的情况下,事件A发生的概率等于事件A、B同时发生的概率除以B事件发生的概率。2、逻辑回归(Logistic Regression)(1)例子:h(x)>0.5(恶性),Ma原创 2017-09-18 22:03:28 · 21515 阅读 · 1 评论 -
机器学习——聚类(clustering):K-means算法(非监督学习)
1、归类聚类(clustering):属于非监督学习(unsupervised learning),是无类别标记(class label)2、举例3、K-means算法(1)K-means算法是聚类(clustering)中的经典算法,数据挖掘的十大经典算法之一(2)算法接收参数K,然后将事先输入的n个数据划分为K个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较原创 2017-09-21 15:38:28 · 9488 阅读 · 0 评论 -
机器学习sklearn19.0——线性回归算法(应用案例)
一、线性回归——家庭用电预测(时间与功率以及功率与电流之间的关系)原创 2017-12-17 10:08:47 · 7706 阅读 · 0 评论 -
机器学习sklearn19.0——Logistic回归算法
一、Logistic回归的认知与应用场景Logistic回归为概率型非线性回归模型,是研究二分类观察结果与一些影响因素之间关系的一种多变量分析方法。通常的问题是,研究某些因素条件下某个结果是否发生,比如医学中根据病人的一些症状来判断它是否患有某种病。二、LR分类器LR分类器,即Logistic Regression C原创 2017-12-17 10:10:10 · 35929 阅读 · 8 评论 -
[Machine Learning] 梯度下降法的三种形式BGD、SGD以及MBGD
转载:博客出处:http://www.cnblogs.com/maybe2030/ 阅读目录1. 批量梯度下降法BGD2. 随机梯度下降法SGD3. 小批量梯度下降法MBGD4. 总结 在应用机器学习算法时,我们通常采用梯度下降法来对采用的算法进行训练。其实,常用的梯度下降法还具体包含有三种不同的形式,它们也各自有着不同的优缺点。 下面我们以转载 2017-12-30 10:22:16 · 350 阅读 · 0 评论 -
机器学习sklearn19.0——集成学习——boosting与梯度提升算法(GBDT)、Adaboost算法
一、boosting算法原理原创 2017-12-17 10:13:28 · 2635 阅读 · 1 评论 -
机器学习sklearn19.0聚类算法——层次聚类(AGNES/DIANA)、密度聚类(DBSCAN/MDCA)、谱聚类
一、层次聚类BIRCH算法详细介绍以及sklearn中的应用如下面博客链接:http://www.cnblogs.com/pinard/p/6179132.htmlhttp://www.cnblogs.com/pinard/p/6200579.html 二、密度聚类 三、密度最大值聚类...原创 2018-09-19 09:24:53 · 7145 阅读 · 0 评论 -
机器学习sklearn19.0聚类算法——Kmeans算法
一、关于聚类及相似度、距离的知识点原创 2017-12-17 10:18:16 · 74326 阅读 · 14 评论 -
机器学习sklearn19.0——SVM算法
一、原创 2017-12-17 10:17:09 · 1895 阅读 · 1 评论 -
机器学习概述
一、机器学习定义及认识机器学习做的事情总结来说就是:根据提供数据,机器能够寻找到一个函数function,学习到数据的相关特征规律从而进行预测。机器学习的框架流程大概分为以下三个步骤:机器学习大致可分为两类学习任务,分别为:监督学习(supervised learning)和非监督学习(unsupervised learning)。 其中,监督学习又分...原创 2017-12-17 10:14:13 · 1683 阅读 · 0 评论 -
机器学习sklearn19.0——集成学习——bagging、随机森林算法
一、bagging策略二、随机森林算法原创 2017-12-17 10:12:44 · 7393 阅读 · 4 评论 -
机器学习sklearn19.0——决策树算法
一、基础知识——信息熵与条件信息熵二、决策树的定义与直观理解原创 2017-12-17 10:11:33 · 1879 阅读 · 1 评论 -
机器学习——非监督学习——层次聚类(Hierarchical clustering)
1、层次聚类(Hierarchical clustering)的步骤假设有N个待聚类的样本,对于层次聚类来说,其步骤为:(1)初始化:把每个样本各自归为一类(每个样本自成一类),计算每两个类之间的距离,在这里也就是样本与样本之间的相似度(本质还是计算类与类之间的距离)。(2)寻找各个类之间最近的两个类,把它们归为一类(这样,类的总数就减少了一个)(3)重新计算新生成的这个类与各个旧原创 2017-09-21 21:35:11 · 15718 阅读 · 1 评论 -
机器学习——简单线性回归(下)
1、简单线性回归模型举例:汽车卖家做电视广告数量与卖出汽车数量:(1)对于上面示例中给定的点,如何连出适合简单线性回归模型的最佳线性回归线?将上述实例中的5个点在坐标系中绘出,目的:找到一个方程可以模拟出最好的回归线;最好的回归线是最能够体现实例点的分布趋势的直线。量化是最好的回归线的数学方法是:,即:使得对于每个实例点的真实值与估计值只差的平方和最小的回归线。注:是给出的原创 2017-09-13 19:28:17 · 497 阅读 · 0 评论 -
机器学习——支持向量机SVM(Support Vector Machine)(上)
1、概述最早是在1963年由Vladimir N.Vapmik和Alexey Ya.Chervonenkis提出的,目前的版本(soft margin)在1993年是由Cormna Cortes和Vapnik提出的并在1995年发表。在2012年深度学习出现之前,SVM被认为是近十几年来表现最好和最成功的算法。SVM(Support Vector Machine)——在机器学习领域,是一个原创 2017-08-24 22:19:30 · 3946 阅读 · 0 评论 -
在win7 32位系统中安装配置Python的机器学习包scikit-learn
Scikit-Learn是用于机器学习的Python 模块,它建立在SciPy之上。操作简单、高效的数据挖掘和数据分析。Scikit-Learn的基本功能主要被分为六个部分:分类、回归、聚类、数据降维、模型选择、数据预处理。机器学习算法用Python语言实现,需要机器学习包scikit-learn,下面介绍一下我的scikit-learn的安装过程。本人Python的机器学习包scik原创 2017-08-24 13:39:49 · 2128 阅读 · 0 评论 -
机器学习——简单线性回归(上)
1、前提介绍为什么需要统计量?——统计量:描述数据特征(1)集中趋势衡量a:均值(平均数、平均值)(mean),公式如下:举例:{6,2,9,1,2} 均值为:(6+2+9+1+2)/ 5 = 4b、中位数(median):将数据中的各个值按照大小顺序排列,居于中间位置的变量。举例:{6,2,9,1,2}给上上面的数排序:1,2,2,6,9找出中间位置的数:原创 2017-09-13 19:23:18 · 875 阅读 · 0 评论 -
机器学习基础知识
概念学习:指从有关某个布尔函数的输入输出训练样例中推算出该布尔函数。1、进行机器学习,首先要有数据。例如:西瓜的数据。样例色泽根蒂敲声1青绿蜷缩浊响2乌黑稍蜷沉闷3浅白硬挺清脆注:表格中的一行代表一条记录(也称为一个示例或一个样本)(1)数据集:所有记录的集合(2)对原创 2017-08-24 18:59:12 · 514 阅读 · 0 评论 -
机器学习中的范数规则化之(二)核范数与规则项参数选择
上一篇博文,我们聊到了L0,L1和L2范数,这篇我们絮叨絮叨下核范数和规则项参数选择。知识有限,以下都是我一些浅显的看法,如果理解存在错误,希望大家不吝指正。谢谢。 三、核范数 核范数||W||*是指矩阵奇异值的和,英文称呼叫Nuclear Norm。这个相对于上面火热的L1和L2来说,可能大家就会陌生点。那它是干嘛用的呢?霸气登场:约束Low-Rank(低秩)转载 2017-07-07 09:26:36 · 413 阅读 · 0 评论 -
机器学习中的范数规则化之(一)L0、L1与L2范数
今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文。知识有限,以下都是我一些浅显的看法,如果理解存在错误,希望大家不吝指正。谢谢。 监督机器学习问题无非就是“minimizeyour error whil转载 2017-07-07 09:25:01 · 441 阅读 · 0 评论 -
国外牛人总结的机器学习领域的框架、库以及软件
本文汇编了一些机器学习领域的框架、库以及软件(按编程语言排序)。C++计算机视觉CCV —基于C语言/提供缓存/核心的机器视觉库,新颖的机器视觉库OpenCV—它提供C++, C, Python, Java 以及 MATLAB接口,并支持Windows, Linux, Android and Mac OS操作系统。通用机器学习MLPackDLib转载 2017-07-06 19:21:30 · 408 阅读 · 0 评论 -
28款GitHub最流行的开源机器学习项目
现在机器学习逐渐成为行业热门,经过二十几年的发展,机器学习目前也有了十分广泛的应用,如:数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、DNA序列测序、语音和手写识别、战略游戏和机器人等方面。翻译整理了目前GitHub上最受欢迎的28款开源的机器学习项目,以供开发者参考使用。1. TensorFlow TensorFlow 是谷歌发布的转载 2017-07-06 18:57:32 · 636 阅读 · 0 评论 -
机器学习——支持向量机SVM(Support Vector Machine)(下)
1、SVM算法特征(1)训练好的模型的算法复杂度是由支持向量的个数决定的,而不是由数据的维度决定。所以,SVM不太容易产生overfitting。(2)SVM训练出来的模型完全依赖于支持向量(Support Vectors),即使训练集里面所有非支持向量的点都被去除,重复训练过程,结果仍然会得到完全一样的模型。(3)一个SVM如果训练得出的支持向量个数比较小,SVM训练出的模型比较容易原创 2017-09-09 12:38:15 · 1694 阅读 · 0 评论 -
机器学习——BP神经网络算法
1、背景以人脑中的神经网络为启发,历史上出现过很多不同的版本,最著名的算法是1980年的backpropagation2、多层向前神经网络(Multilayer Feed-Forward Neural Network)backpropagation被使用在多层向前神经网络上,多层向前神经网络由一下几部分组成:输入层(input layer)、隐藏层(hidden layers)、输原创 2017-09-12 22:52:43 · 9476 阅读 · 0 评论 -
机器学习——回归中的相关度与R平方值及其应用
1、皮尔逊相关系数(Pearson Correlation Coeffident)(1)衡量两个值线性相关的强度(2)取值范围[-1,1]:正向相关>0;负向相关(3)公式:原创 2017-09-20 17:20:48 · 8864 阅读 · 0 评论 -
机器学习——最邻近规则分类(K Nearest Neighbor)KNN算法的应用
1、数据集介绍——虹膜(一种花的名字) 150个实例:包含4个维度的特征值:萼片长度(sepal length)、萼片宽度(sepal width)、花瓣长度(petal length)、花瓣宽度(petal width)3种类别:Iris setosa、Iris versicolor、Iris virginica总结:这个虹膜的数据集——Iris数据集有150行,每行有4个原创 2017-09-12 19:36:55 · 747 阅读 · 0 评论 -
机器学习——最邻近规则分类(K Nearest Neighbor)KNN算法
1、简介(1)Cover和Hart在1968年提出最初的临近算法(2)邻近算法属于分类(classification)算法(3)输入基于实例的学习(instance-based learing),懒惰学习(lazy learing)——处理训练集时并没有建造任何的模型,当对一个未知的实例进行归类时才进行归类2、举例如何将电影的例子模拟成一个广泛的模型?对于每一个电影模拟原创 2017-09-12 16:36:47 · 12778 阅读 · 1 评论 -
机器学习——决策树算法的应用
对于买电脑的示例,在Python数据包sk-learn中利用决策树算法实现数据分类,并画出决策树的结构1、准备工作(1)安装Graphviz,并配置好环境变量,我的环境变量配置为:D:\Program Files\graphviz-2.38\release\bin,转化dot文件至pdf可视化决策树:dot _Tpdf inis.dot -o(2)将数据存储到文件后缀为.c原创 2017-09-12 11:10:15 · 1163 阅读 · 0 评论 -
机器学习——决策树算法
1、机器学习中分类和预测算法的评估(1)准确率(2)速度(算法复杂度)(3)强壮性(数据有噪音或关键值确实情况下的表现)(4)可规模性(5)可解释性2、决策树(decision tree)/判定树的定义决策树是一个类似流程框图的树结构:其中,每个内部结点表示在一个属性上的测试,每个分支代表一个属性输出,而每个树叶结点代表类或类分布。树的最顶层是根结点。决策树是机器学原创 2017-09-10 22:24:16 · 787 阅读 · 0 评论 -
机器学习——多元线性回归分析(multiple regression)及应用
1、多元回归分析与简单线性回归区别多个自变量x2、多元回归模型,其中,是参数,是误差值3、多元回归方程4、估计多元回归方程,一个样本被用来计算的点估计5、估计流程(与简单线性回归类似)6、估计方法使sum of squares最小,,运算与简单线性回归类似,涉及线性代数和矩阵代数的运算7、举例一家快递公司送货,X1:运输里程;X2:运输次数;原创 2017-09-16 21:03:09 · 23337 阅读 · 2 评论 -
机器学习——BP神经网络算法应用(下)
1、BP神经网络算法应用——简单非线性数据集测试(异或:XOR)将BP神经网络算法应用(上)写好的NeuralNetwork.py文件与要测试的文件XOC_test.py文件放到同一目录下,并在XOC_test.py文件里面包含NeuralNetwork模块代码如下:#!/usr/bin/env python# -*- coding:utf-8 -*-# Author:原创 2017-09-18 16:08:12 · 2561 阅读 · 0 评论 -
机器学习——BP神经网络算法应用(上)
1、关于非线性转化方程(non-linear transformation function)sigmoid函数(S曲线)用来作为activation function(1)双曲函数(tanh function)(2)逻辑函数(logistic function)sigmoid函数是一个S型函数,其数学公式为:,它是常微分方程原创 2017-09-17 17:04:44 · 2356 阅读 · 0 评论 -
机器学习项目(一)——垃圾邮件的过滤技术
一、垃圾邮件过滤技术项目需求与设计方案二、数据的内容分析(1、是否为垃圾邮件的标签,spam——是垃圾邮件;ham——不是垃圾邮件)(2、邮件的内容分析——主要包含:发件人、收件人、发件时间以及邮件的内容)三、需求分析、模型选择与架构四、数据清洗(一)·代码中应用的知识点(1)字典的get(原创 2018-01-09 19:55:14 · 38249 阅读 · 36 评论