机器学习
kunlong0909
这个作者很懒,什么都没留下…
展开
-
排序学习参考资料
论文资料1.http://www.doc88.com/p-40928286242.html2.http://www.doc88.com/p-676304033362.html原创 2013-03-12 17:14:04 · 812 阅读 · 0 评论 -
click through rate prediction
click through rate prediction包括内容如下图: 使用直接估计法,置信区间置信率的估计:1.使用二项分布直接估计p(0.04p^0.06)=∑0.04n≤k≤0.06n(nk)0.05k0.95n−kp(0.04123456转载 2016-09-02 18:37:16 · 831 阅读 · 0 评论 -
深入FFM原理与实践
深入FFM原理与实践del2z, 大龙 ·2016-03-03 09:00FM和FFM模型是最近几年提出的模型,凭借其在数据量比较大并且特征稀疏的情况下,仍然能够得到优秀的性能和效果的特性,屡次在各大公司举办的CTR预估比赛中获得不错的战绩。美团点评技术团队在搭建DSP的过程中,探索并使用了FM和FFM模型进行CTR和CVR预估,并且取得了不错的效果。本文旨在把我们对FM和FF转载 2016-09-02 18:44:08 · 614 阅读 · 0 评论 -
逻辑回归:从入门到精通
这里推荐一个非常经典的逻辑回归教程,这个人可是韩家炜的学生,好好膜拜一下~~~ 文章链接为:http://www.tianyancha.com/research/LR_intro.pdf原创 2016-09-02 18:54:12 · 2838 阅读 · 0 评论 -
强大的矩阵奇异值分解(SVD)及其应用
机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com。也可以加我的微博: @leftnoteasy前言: 上一次写了关于PCA与LDA的文章转载 2016-09-02 20:16:59 · 685 阅读 · 0 评论 -
线性判别分析(LDA), 主成分分析(PCA)
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com前言: 第二篇的文章中谈到,和部门老大一宁出去outing的时候,他给了我相当多的机器学习的建议,里面涉及到很多的算法的意义、学习方法等等。一宁上次给转载 2016-09-02 20:18:54 · 801 阅读 · 0 评论 -
NumPy Basics: Arrays and Vectorized Computation
1. NumPy Basics: Arrays and Vectorized ComputationNumPy 是 Numerical Python 的简称,是高性能计算和数据分析的基础包。本书中几乎所有高级工具都是建立在它的基础之上,下面是它所能做的一些事情:ndarray,快速和节省空间的多维数组,提供数组化的算术运算和高级的 广播 功能。使用标准数学函数对整个数组的数据进转载 2016-09-05 09:44:43 · 869 阅读 · 0 评论 -
机器学习基石笔记1——在何时可以使用机器学习(1)
转载请注明出处:http://www.cnblogs.com/ymingjingr/p/4271742.html目录机器学习基石笔记1——在何时可以使用机器学习(1)机器学习基石笔记2——在何时可以使用机器学习(2)机器学习基石笔记3——在何时可以使用机器学习(3)(修改版)机器学习基石笔记4——在何时可以使用机器学习(4)机器学习基石笔记5——为什么机器可以学习(1)转载 2016-09-20 09:24:02 · 554 阅读 · 0 评论 -
远程访问jupyter notebook
ipython notebook是一个基于浏览器的python数据分析工具,使用起来非常方便,具有极强的交互方式和富文本的展示效果。jupyter是它的升级版,它的安装也非常方便,一般Anaconda安装包中会自带。安装好以后直接输入jupyter notebook便可以在浏览器中使用。但是它默认只能在本地访问,如果想把它安装在服务器上,然后在本地远程访问,则需要进行如下配置:1. 登转载 2016-09-07 23:19:20 · 26731 阅读 · 8 评论 -
关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化
一、标准化(Z-Score),或者去除均值和方差缩放公式为:(X-mean)/std 计算时对每个属性/每列分别进行。将数据按期属性(按列进行)减去其均值,并处以其方差。得到的结果是,对于每个属性/每列来说所有数据都聚集在0附近,方差为1。实现时,有两种不同的方式:使用sklearn.preprocessing.scale()函数,可以直接将给定数据进行标转载 2016-09-20 22:02:52 · 1906 阅读 · 0 评论 -
使用sklearn做单机特征工程
1 特征工程是什么?有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面:特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包括数据预处理,特征选择,降维等。首次接触转载 2016-10-16 18:25:17 · 1429 阅读 · 0 评论 -
[python] 时间序列分析之ARIMA
1 时间序列与时间序列分析在生产和科学研究中,对某一个或者一组变量 x(t) 进行观察测量,将在一系列时刻 t1,t2,⋯,tn 所得到的离散数字组成的序列集合,称之为时间序列。 时间序列分析是根据系统观察得到的时间序列数据,通过曲线拟合和参数估计来建立数学模型的理论和方法。时间序列分析常用于国民宏观经济控制、市场潜力预测、气象预测、农作物害虫灾害预报等各个方面。2 时间序列建转载 2016-10-08 15:13:59 · 12301 阅读 · 4 评论 -
协同过滤
在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。本文将带你深入了解协同过滤的秘密。下面直接进入正题1 什么是协同过滤协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filtering, 简称 CF),首先想一个简单的问题,如果你现在想看个电影,但你不知道具体看哪部,你会怎么做?大部分的人会问问周围的朋友,看看最转载 2016-10-21 09:26:28 · 1451 阅读 · 0 评论 -
机器学习,计算视觉总结性的东西
http://blog.csdn.net/zouxy09/article/details/14222605转载 2016-09-14 10:20:55 · 413 阅读 · 0 评论 -
GBDT的深度理解
1. 基础知识 首先需要掌握以下的基础知识: 1)独立性检验:http://www.cnblogs.com/zhangchaoyang/articles/2642032.html 。。。。原创 2016-08-24 20:51:29 · 2080 阅读 · 1 评论 -
搜索与机器学习
今年是图灵诞辰100周年。如果图灵在世的话,他会惊喜地发现互联网搜索引擎已经能在自己当年设计的人工智能测试上取得相当好的成绩,因为在主要的搜索引擎上提出各种各样的问题,比如“理想国的作者?”或者“从知春路到清华东门怎么坐公交车?”,都能找到正确的答案。毫无疑问,互联网搜索引擎已成为当今最为实用、最具代表性的智能系统。 1.互联网搜索技术据统计,约有60%的互联网用户每天至少使用一次搜索转载 2013-04-13 09:42:56 · 1380 阅读 · 0 评论 -
最优化:拟牛顿法、最速下降法、共轭梯度法、信赖域法、协同优
最优化理论与算法是一个重要的数学分支,它所研究的问题是讨论在众多的方案中什么样的方案最优以及怎样找出最优方案。这类问题普遍存在。例如,工程设计中怎样选择设计参数,使得设计方案既满足设计要求又能降低成本;资源分配中,怎样分配有限资源,使得分配方案既能满足各方面的基本要求,又能获得好的经济效益;生产计划安排中,选择怎样的计划方案才能提高产值和利润;原料配比问题中,怎样确定各种成分的比例,才能提高质量,转载 2013-04-13 10:51:26 · 53358 阅读 · 3 评论 -
Learning to Rank入门小结 + 漫谈
Table of Contents1 前言2 LTR流程3 训练数据的获取4 特征抽取3.1 人工标注3.2 搜索日志3.3 公共数据集5 模型训练5.1 训练方法5.1.1 Pointwise5.1.2 Pairwise5.1.3 Listwise6 效果评估7 参考6.1 NDCG(Normalized Discounte转载 2013-11-18 15:56:04 · 9962 阅读 · 2 评论 -
我对VC维的理解
这次论文感觉很有意义,之前对VC维虽然有所了解但是没有进行深入的研究。趁此作业机会我通过网络资料、Vapnik的书《The Nature of Statistical Learning Theory》还有Vapnik的论文“Measuring the VC-dimension of a Learning Machine”、“The Vapnik-Chervonenkis Dimension: Information versus Complexity in Learning”等对VC维有了进一步的了解。本次原创 2013-11-07 19:46:50 · 5334 阅读 · 3 评论 -
GBDT(MART)概念简介
GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种用于回归的机器学习算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。当把目标函数做变换后,该算法亦可用于分类或排序。 本文主要从高层明确几个GBDT概念,主要讲GBDT的两个版本以及GBDT是什么不是什么。详细介转载 2013-12-26 17:04:23 · 10086 阅读 · 0 评论 -
在线学习(Online Learning)
原题目叫做The perception and large margin classifiers,其实探讨的是在线学习。这里将题目换了换。以前讨论的都是批量学习(batch learning),就是给了一堆样例后,在样例上学习出假设函数h。而在线学习就是要根据新来的样例,边学习,边给出结果。 假设样例按照到来的先后顺序依次定义为。X为样本特征,y为类别标签。我们的任务是到来一个样转载 2014-12-24 21:39:27 · 2243 阅读 · 0 评论 -
SVD奇异值分解
SVD分解SVD分解是LSA的数学基础,本文是我的LSA学习笔记的一部分,之所以单独拿出来,是因为SVD可以说是LSA的基础,要理解LSA必须了解SVD,因此将LSA笔记的SVD一节单独作为一篇文章。本节讨论SVD分解相关数学问题,一个分为3个部分,第一部分讨论线性代数中的一些基础知识,第二部分讨论SVD矩阵分解,第三部分讨论低阶近似。本节讨论的矩阵都是实数矩阵。基础知识1转载 2015-08-27 11:06:54 · 550 阅读 · 0 评论 -
简单易学的机器学习算法——因子分解机(Factorization Machine)
一、因子分解机FM的模型 因子分解机(Factorization Machine, FM)是由Steffen Rendle提出的一种基于矩阵分解的机器学习算法。1、因子分解机FM的优势 对于因子分解机FM来说,最大的特点是对于稀疏的数据具有很好的学习能力。现实中稀疏的数据很多,例如作者所举的推荐系统的例子便是一个很直观的具有稀疏特点的例子。2、因子分解机F转载 2016-09-10 18:11:19 · 4444 阅读 · 0 评论 -
Factorization Machines 学习笔记(一)预测任务
最近学习了一种叫做 Factorization Machines(简称 FM)的算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景;2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD)法和交替最小二乘法(ALS)法进行详细推导。相关链接:(一)预测任务(二)模型方程(三)回归和转载 2016-09-10 18:47:49 · 771 阅读 · 0 评论 -
Factorization Machines 学习笔记(二)模型方程
最近学习了一种叫做 Factorization Machines(简称 FM)的算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景;2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD)法和交替最小二乘(ALS)法进行详细推导。相关链接:(一)预测任务(二)模型方程(三)回归和分转载 2016-09-10 18:48:19 · 463 阅读 · 0 评论 -
Factorization Machines 学习笔记(三)回归和分类
最近学习了一种叫做 Factorization Machines(简称 FM)的算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景;2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD)法和交替最小二乘(ALS)法进行详细推导。相关链接:(一)预测任务(二)模型方程(三)回归和分转载 2016-09-10 18:49:19 · 1111 阅读 · 0 评论 -
Factorization Machines 学习笔记(四)学习算法
Factorization Machines 学习笔记(四)学习算法标签: FMFactorizationMachine稀疏特征SGDALS2014-10-28 10:22 9370人阅读 评论(7) 收藏 举报 分类:数据挖掘(34) 机器学习(36) 版权声明:本文为博主原创文章,未经博主允许不得转载。转载 2016-09-10 18:51:31 · 2445 阅读 · 0 评论 -
Softmax回归
Contents [hide]1 简介2 代价函数3 Softmax回归模型参数化的特点4 权重衰减5 Softmax回归与Logistic 回归的关系6 Softmax 回归 vs. k 个二元分类器7 中英文对照8 中文译者简介在本节中,我们介绍Softmax回归模型,该模型是logistic回归模型在多分类问题上的推广,在多分类问题中,类标转载 2016-11-18 15:10:52 · 1393 阅读 · 0 评论