机器学习实战
ggwcr
这个作者很懒,什么都没留下…
展开
-
机器学习笔记--K-近邻算法(一)
机器学习实战这本书的例子很多也很好,问题导向型的,所以例子也是循序渐进。如果真要读懂,一遍是不够的,特别是我这种渣。其实写机器学习实战笔记的同时,我都或多或少的参考了《机器学习与R语言》这本书,相互借鉴,看看同样的问题表述,两者有什么区别。1. K-近邻算法的概述 简单地说,K-近邻算法采用测量不同特征值之间的距离方法进行分类。--《机器学习实战》 “物以类聚,人以群分”,相似的东西很有可能具原创 2017-08-10 13:25:42 · 812 阅读 · 0 评论 -
Factorization Machine算法
说明:本博客是学习《python机器学习算法》赵志勇著的学习笔记,其图片截取也来源本书。在逻辑回归算法的模型中使用的是特征的线性组合,最终得到的是分隔超平面属于线性模型,其只能处理线性可分的二分类问题。现实生活中的分类问题是多种多样的,存在大量的非线性可分的分类问题。对逻辑回归算法的优化有两种: 1、对特征进行处理,如核函数方法,将非线性可分的问题转换成近似线性可分的问题; 2、对逻辑回归算法进原创 2017-10-07 19:54:57 · 1419 阅读 · 1 评论 -
Factorization Machines 学习笔记(一)预测任务(转)
最近学习了一种叫做 Factorization Machines(简称 FM)的算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景;2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD)法和交替最小二乘法(ALS)法进行详细推导。相关链接:(一)预测任务(二)模型方程(三)回归和转载 2017-10-07 19:59:32 · 511 阅读 · 0 评论 -
Factorization Machines 学习笔记(二)模型方程(转)
最近学习了一种叫做 Factorization Machines(简称 FM)的算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景;2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD)法和交替最小二乘(ALS)法进行详细推导。相关链接:(一)预测任务(二)模型方程(三)回归和分转载 2017-10-07 20:03:11 · 220 阅读 · 0 评论 -
Factorization Machines 学习笔记(三)回归和分类(转)
最近学习了一种叫做 Factorization Machines(简称 FM)的算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景;2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD)法和交替最小二乘(ALS)法进行详细推导。相关链接:(一)预测任务(二)模型方程(三)回归和分转载 2017-10-07 20:05:26 · 300 阅读 · 0 评论 -
Factorization Machines 学习笔记(四)学习算法(转)
最近学习了一种叫做 Factorization Machines(简称 FM)的算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景;2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD)法和交替最小二乘法(ALS)法进行详细推导。相关链接:(一)预测任务(二)模型方程(三)回归和转载 2017-10-07 20:07:40 · 276 阅读 · 0 评论 -
CART树回归
基于树的回归算法是一类基于局部的回归算法,通过将数据集切分成多份,在每一份数据中单独建模。与局部加权线性回归不同的是,基于树回归的算法是一种基于参数学习的算法,利用训练数据训练完模型后,参数一定确定,无需再改变。分类回归树(Classification And Regression Tree,CART)算法是使用比较多的一种树模型,CART算法既可以解决分类问题也可以解决回归问题。前面的博客随机森林原创 2017-10-07 23:29:59 · 852 阅读 · 0 评论 -
K-means的python实现
环境:win7 64位 python3.5import numpy as npimport matplotlib.pyplot as plt# 加载数据def loadDataSet(fileName): data = np.loadtxt(fileName,delimiter='\t') return data# 欧氏距离计算def distEcl原创 2017-09-21 12:29:39 · 834 阅读 · 0 评论 -
决策树ID3算法的python实现
决策树ID3算法的python实现环境:win7 64位 python3.5熵参考:http://blog.csdn.net/ggwcr/article/details/77964184import numpy as npfrom math import logimport operatordef createDataSet(): dataSet = [ [1, 1, '原创 2017-09-21 12:52:41 · 1497 阅读 · 0 评论 -
线性模型
说明:本博客是学习线性模型的笔记,参考了周志华的《机器学习》,华校专、王正林的《Python大战机器学习》,孙亮、黄倩的《实用机器学习》,截图也来自上述书中,在此对他们表示感谢。1.1概述线性模型形式简单、易于建模,但却蕴含着机器学习中一些重要的基本思想,许多功能更为强大的非线性模型(nonlinear model)可在线性模型的基础上通过引入层级结构或高维映射而得。1.2普通线性回归给定数据集D=原创 2017-10-08 10:20:20 · 971 阅读 · 0 评论 -
协同过滤算法
协同过滤(ccollaborative Filtering,CF)算法是最基本的推荐算法,CF算法是从用户的历史行为数据中挖掘出用户的兴趣,为用户推荐其感兴趣的项。 根据挖掘方法的不同,协同过滤算法可以分为基于用户的(User-based)协同过滤算法和基于项的(Item-based)协同过滤算法。1、推荐系统的概述1.1、推荐系统在信息过载的时代,信息呈现出爆炸式增长,大量的信息给用户不断带来新原创 2017-10-07 19:20:47 · 803 阅读 · 0 评论 -
CART分类树算法与随机森林
CART分类树算法与随机森林对于一个复杂的分类问题,训练一个复杂的分类模型通常比较耗时,同时为了能够提高对分类问题的预测准确性,通常可以选择训练多个分类模型,并将各自的预测结果结合起来,得到最终的预测。集成学习(Ensemble Learning)便是这样一种学习方法,集成学习是指将多种学习算法,通过适当的形式组合起来完成同一个任务。在集成学习中,主要分为Bagging算法和boosting算法。随原创 2017-10-07 17:18:15 · 9337 阅读 · 0 评论 -
机器学习笔记--K-近邻算法(三)
手写识别系统0、说明环境:window7 64位 python 3.5与python2.7原文的代码有些不一样。本节我们一步步地构造使用k-近邻分类器的手写识别系统。为了简单起见,这里构造的系统只能识别数字0到9. 需要识别的数字已经使用图形处理软件,处理成具有相同的色彩和大小: 宽髙是32像素X32像素的黑白图像。尽管采用文本格式存储图像不能有效地利用内存空间,但是为了方便理解,我们还是将图像转原创 2017-09-02 20:07:58 · 284 阅读 · 1 评论 -
机器学习笔记--机器学习的基础
机器学习的基础1. 何谓机器学习 简单地说,机器学习就是把无序的数据转换成有用的信息。机器学习横跨计算机科学、工程技术和统计学等多个学科,需要多学科的专业知识。 机器学习的主要任务就是分类。当决定使用某个机器学习算法进行分类是,首先需要做的是算法训练,即如何学习分类。通常为算法输入大量的已分类的数据作为算法的训练集。训练集是用于训练机器学习算法的数据样本集合,原创 2017-08-10 10:45:30 · 306 阅读 · 0 评论 -
信息量与熵笔记
主要是学习七月算法熵与信息量所作的一些笔记,当然也参考了一些博客,这里对他们表示衷心的感谢!自信息如果说概率p是对确定性的度量,那么信息就是对不确定性的度量 。信息:I(x) = -log(p(x)) 如果两个事件X和Y独立,即p(xy)=p(x)p(y),假定X和Y的信息量分别为I(x)和I(y),则二者同时发生的信息量应该为I(x^y)=I(x)+I(y)原创 2017-09-13 12:08:26 · 4534 阅读 · 0 评论 -
贝叶斯分类之旧金山犯罪分类预测
贝叶斯分类之旧金山犯罪类型分类预测学习七月算法朴素贝叶斯分类器中项目的一个例子,这也是一个Kaggle比赛的例子。通过训练来预测犯罪类型。环境: win7 64位 python3.51、加载数据该数据是旧金山12年的犯罪记录,数据文件是一个csv文件可以使用pandas来加载数据,数据内容摘录: Dates,Category,Descript,DayOfWeek,PdDistrict,Resolu原创 2017-09-14 18:40:11 · 3129 阅读 · 0 评论 -
AdaBoost分类器
本博客是基于《机器学习实战》中第七章的基础上加上个人理解所做的笔记,其中python程序的注释也是个人的理解,可能有不正确的地方,仅供参考。 环境:win7 64位 python3.50、概述当做重要决定时,大家可能都会考虑吸取多个专家而不只是一个人的意见。机器学习处理问题时又何尝不是如此?这就是元算法(meta-algorithm ) 背后的思路。元算法是对其他算法进行组合的一种方式,即可以将原创 2017-09-22 19:28:10 · 7998 阅读 · 0 评论 -
贝叶斯算法笔记
通常情况下,贝叶斯分类器最适合于解决一类问题:为了估计一个结果的总概率。从众多属性中提取的信息应该被同时考虑。尽管很多机器学习算法忽略了具有弱影响的一些特征,但是贝叶斯方法利用了所有可以获得的证据来巧妙的修正预测。如果有大量特征产生的影响较小,但将他们放在一起,它们的组合影响可能会很大。1、贝叶斯概率公式 理解贝叶斯公式还要理解一些与贝叶斯相关的概念。 先验概率:利用数据计算得到的先验原创 2017-09-15 11:12:27 · 734 阅读 · 0 评论 -
机器学习中的参数估计
1、最大似然估计MLE(maximum likelihood estimation)最大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。首先回顾一下贝叶斯公式这个公式也称为逆概率公式,可以将后验概率转化为基于似然函数和先验概率的计算表达式,即最大似转载 2017-08-31 14:38:20 · 482 阅读 · 0 评论 -
机器学习之PCA
1、PCA概述在很多实际数据中,通常涉及很多的变量。大量的变量不但增加了计算的复杂度,而且有些变量有可能是噪声, 从而将数据中的主要数据“淹没”。此外虽然每一个变量都提供了相应的信息,但是很多变量可能存在一定的 相关性。因此,我们希望从数据中提取主要变量信息,用较少的新变量来表达数据中的主要信息。在主成分分析 (pricipal component analysis,PCA)中,我们使用旧变量原创 2017-09-01 19:25:25 · 488 阅读 · 0 评论 -
机器学习笔记--K-近邻算法(二)
使用K-近邻算法改进约会网站的配对效果我的朋友海伦一直使用在线约会网站寻找适合自己的约会对象。 尽管约会网站会推荐不同的 人选,但她没有从中找到喜欢的人。经过一番总结,她发现曾交往过三种类型的人:□ 不喜欢的人□ 魅力一般的人□ 极具魅力的人尽管发现了上述规律, 但海伦依然无法将约会网站推荐的匹配对象归人恰当的分类。她觉得 可以在周一到周五约会那些魅力一般的人,而周末则更喜欢与那些极具魅力的人为原创 2017-09-01 21:45:10 · 282 阅读 · 0 评论 -
使用Apriori算法进行关联分析
1、使用Apriori算法进行关联分析关联分析中最有名的例子是“尿布与啤酒”。据报道,美国中西部的一家连锁店发现,男人们会在周四购买尿布和啤酒。这样商店实际上可以将尿布与啤酒放在一块,并确保在周四全价销售从而获利。当然,这家商店并没有这么做。这是商家通过研究用户的清单来提高销量的一个典型的例子。这种从大规模数据中寻找物品间的隐含关系式十分耗时和复杂的,所需的计算代价也很高。因此需要更加智能的方法在合原创 2017-09-30 17:19:26 · 972 阅读 · 0 评论