Machine Learning
文章平均质量分 80
wangrunjie1986
这个作者很懒,什么都没留下…
展开
-
Coursera公开课笔记: 斯坦福大学机器学习第六课“逻辑回归(Logistic Regression)”
斯坦福大学机器学习第六课"逻辑回归“学习笔记,本次课程主要包括7部分:1) Classification(分类)2) Hypothesis Representation3) Decision boundary(决策边界)4) Cost function(代价函数,成本函数)5) Simplified cost function and gradient descent(简化版代转载 2013-02-04 10:41:47 · 1984 阅读 · 2 评论 -
数据挖掘工程师笔试及答案整理
2013百度校园招聘数据挖掘工程师一、简答题(30分)1、简述数据库操作的步骤(10分)步骤:建立数据库连接、打开数据库连接、建立数据库命令、运行数据库命令、保存数据库命令、关闭数据库连接。经萍萍提醒,了解到应该把preparedStatement预处理也考虑在数据库的操作步骤中。此外,对实时性要求不强时,可以使用数据库缓存。2、TCP/IP的四层结构(10转载 2014-09-26 16:11:35 · 904 阅读 · 0 评论 -
常见面试之机器学习算法思想简单梳理
常见面试之机器学习算法思想简单梳理2014-09-22 数盟【数盟倡导”数据创造价值“,致力于打造最卓越的数据科学交流平台,为企业、个人提供最卓越的服务】【提示】文章略长,并且很专业,建议专业人士或喜欢死磕技术人士在大屏下观看前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗转载 2014-09-24 13:35:24 · 1883 阅读 · 0 评论 -
逻辑回归(logistic regression)
logistic regression可以解决分类问题,即输出的结果只有0和1两种,比如,对于邮件的判断只有是或者否。这种分类问题使用传统的线性回归并不能很好的解决。一个小例子例如,当我们根据肿瘤的大小判断一个肿瘤是不是良性的时候,输出结果只有是或者否,用1和0表示,给定的样本点,并且我们使用传统的线性回归问题解决拟合的函数图像如下: 图像中我们可以根据拟合曲线,转载 2014-09-10 16:29:56 · 714 阅读 · 0 评论 -
Science上发表的超赞聚类算法
作者(Alex Rodriguez, Alessandro Laio)提出了一种很简洁优美的聚类算法, 可以识别各种形状的类簇, 并且其超参数很容易确定.算法思想该算法的假设是类簇的中心由一些局部密度比较低的点围绕, 并且这些点距离其他有高局部密度的点的距离都比较大. 首先定义两个值: 局部密度ρi以及到高局部密度点的距离δi:ρi=∑jχ(dij−dc)其中转载 2014-07-04 11:04:50 · 3380 阅读 · 0 评论 -
从item-base到svd再到rbm,多种Collaborative Filtering(协同过滤算法)从原理到实现
〇.说明 本文的所有代码均可在 DML 找到,欢迎点星星。一.引入 推荐系统(主要是CF)是我在参加百度的电影推荐算法比赛的时候才临时学的,虽然没拿什么奖,但是知识却是到手了,一直想写一篇关于推荐系统的文章总结下,这次借着完善DML写一下,权当是总结了。不过真正的推荐系统当然不会这么简单,往往是很多算法交错在一起,本文只是入门水平的总结罢了转载 2014-04-17 13:53:36 · 849 阅读 · 0 评论 -
三次指数平滑法(Holt-Winters)
在时间序列中,我们需要基于该时间序列当前已有的数据来预测其在之后的走势,三次指数平滑(Triple/Three Order Exponential Smoothing,Holt-Winters)算法可以很好的进行时间序列的预测。 时间序列数据一般有以下几种特点:1.趋势(Trend) 2. 季节性(Seasonality)。 趋势描述的是时间序列的整体走势,比如总体上升或者总转载 2014-04-16 14:06:20 · 6713 阅读 · 0 评论 -
Learning to Rank 简介
去年实习时,因为项目需要,接触了一下Learning to Rank(以下简称L2R),感觉很有意思,也有很大的应用价值。L2R将机器学习的技术很好的应用到了排序中,并提出了一些新的理论和算法,不仅有效地解决了排序的问题,其中一些算法(比如LambdaRank)的思想非常新颖,可以在其他领域中进行借鉴。鉴于排序在许多领域中的核心地位,L2R可以被广泛的应用在信息(文档)检索,协同过滤等领域。转载 2014-04-16 13:57:54 · 1240 阅读 · 0 评论 -
linear regression
先定义好我们所使用的符号语言,大写的表示我们input的自变量,其中表示自变量有p个维度,也可以说其有p个feature或者p个属性,每个维度可以是离散的或者连续的值。大写的表示我们需要output的因变量,其中表示因变量有m个维度,每个维度可以是离散值或者连续值,通常情况下m=1,下面如果没有特殊说明都是考虑m=1的情况。小写的表示所有的样本的自变量,其中每表示第i个样本自变量的值,小写的所有的原创 2013-12-16 13:09:00 · 722 阅读 · 0 评论 -
Coursera公开课笔记: 斯坦福大学机器学习第四课“多变量线性回归(Linear Regression with Multiple Variables)”
斯坦福大学机器学习第四课"多变量线性回归“学习笔记,本次课程主要包括7部分:1) Multiple features(多维特征)2) Gradient descent for multiple variables(梯度下降在多变量线性回归中的应用)3) Gradient descent in practice I: Feature Scaling(梯度下降实践1:特征归一化)4)转载 2013-02-04 10:51:23 · 1131 阅读 · 0 评论 -
Coursera公开课笔记: 斯坦福大学机器学习第二课“单变量线性回归(Linear regression with one variable)”
斯坦福大学机器学习第二课"单变量线性回归“学习笔记,本次课程主要包括7部分:1) Model representation(模型表示)2) Cost function(代价函数,成本函数)3) Cost function intuition I(直观解释1)4) Cost function intuition II(直观解释2)5) Gradient descent(梯度下降)转载 2013-02-04 10:48:45 · 1376 阅读 · 0 评论 -
如何选择机器学习分类器?
如何选择机器学习分类器? 你知道如何为你的分类问题选择合适的机器学习算法吗?当然,如果你真正关心准确率,那么最佳方法是测试各种不同的算法(同时还要确保对每个算法测试不同参数),然后通过交叉验证选择最好的一个。但是,如果你只是为你的问题寻找一个“足够好”的算法,或者一个起点,这里有一些我这些年发现的还不错的一般准则。你的训练集有多大?如果训练集很小,那么高偏差/低方转载 2015-09-30 11:27:55 · 481 阅读 · 0 评论