机器学习
文章平均质量分 58
厚hou
个人博客www.jiqixuexi.net
展开
-
与算法无关的机器学习方法之主动学习
今天学习了主动学习,发现这是一个很有趣的方法,越来越发现机器学习跟人学习有很多共通的地方。 有监督的学习方法都依赖于打了类标号的样本,所以很多情况下,算法有了,后续的处理方法也有了,就是缺少样本,所以就需要人工进行标注,这里就有了一个问题,如何在保证分类准确率的情况下,减少人工标注的数量,。解决这个问题的一种方法就是主动学习。 主动学习的方法可以这样理解,例如一个实际例子是根据原创 2013-05-16 16:45:29 · 2695 阅读 · 0 评论 -
信用评分的简单小结(ROC,IV,WOE)
转自:http://chen.yi.bo.blog.163.com/blog/static/150621109201011115616880/由于专业的关系,我学习信用评分的时候往往最关注模型那一块,前段时间一直有很多困惑,这周认真地看了一篇文章,终于有一点点明白了,所以来简单地小结一下(这事儿不能说得太细),小结完了我得学习cURL去了。最常见的用于信用评分的模型就是logist转载 2014-10-15 14:25:22 · 6989 阅读 · 0 评论 -
逻辑回归
转自:http://blog.csdn.net/pakko/article/details/37878837转载 2014-10-17 11:32:26 · 1077 阅读 · 0 评论 -
支持向量机的常见问题和推导
从svm的思路说起,进而到svm的具体推导过程原创 2014-11-20 10:33:11 · 3946 阅读 · 4 评论 -
vc维的解释
在做svm的时候我们碰到了结构风险最小化的问题,结构风险等于经验风险+vc置信范围,其中的vc置信范围又跟样本的数量和模型的vc维有关,所以我们看一下什么是vc维首先看一下vc维的定义:对一个指标函数集,如果存在H个样本能够被函数集中的函数按所有可能的2的H次方种形式分开,则称函数集能够把H个样本打散;函数集的VC维就是它能打散的最大样本数目H例如有个样本,一个函数能够将这h个样本打散,打原创 2014-11-20 14:01:24 · 3274 阅读 · 1 评论 -
关联规则应用到图书推荐的问题
本文是观看了小象学院《大数据应用中的算法如何创造商业价值》,现在做一下梳理问题:当当网中”最佳拍档”中的关联规则算法对于解决一个实际的问题,我们看一下一般的思路流程是什么样的1. 目前的关联规则是什么的2. 问题发现和分析:现在的方法有什么问题3. 效果空间预估:理想情况下,这个问题通过某种解决方法,可以达到的效果什么4. 算法改进:基于上面的理想效果,我们如何通过原创 2014-12-21 15:13:22 · 2366 阅读 · 0 评论 -
L1、L2 损失、正则
损失是衡量预测值和真实值的差异,正则是控制所求参数的量级。原创 2014-12-09 16:29:48 · 3796 阅读 · 0 评论 -
Kmeans K值的确定
《大数据》中提到:给定一个合适的类簇指标,比如平均半径或直径,只要我们假设的类簇的数目等于或者高于真实的类簇的数目时,该指标上升会很缓慢,而一旦试图得到少于真实数目的类簇时,该指标会急剧上升。 类簇的直径是指类簇内任意两点之间的最大距离。 类簇的半径是指类簇内所有点到类簇中心距离的最大值。 废话少说,上图。下图是当K的取值从2到9时,聚类效果和类簇指标的效果图:转载 2014-12-09 16:48:39 · 4113 阅读 · 1 评论 -
不错的机器学习自学网站
不错的机器学习自学网站,推荐一下www.jiqixuexi.net原创 2015-02-03 13:02:27 · 1465 阅读 · 0 评论 -
minhash算法
minhash算法原创 2014-07-01 22:49:45 · 3275 阅读 · 0 评论 -
lpa标签传播算法讲解及代码实现
具体的代码如下package lpa;import java.util.Arrays;import java.util.HashMap;import java.util.Map;public class LPA { public static float sigma = 1; public static int tag_num = 2; public static vo原创 2015-08-11 20:56:02 · 14853 阅读 · 4 评论 -
数据&特征
在做机器学习的时候,首先面对的问题不是模型,而是样本和特征,在实际操作的过程中,我们发现,在样本和特征上花费的时间要远大于在模型上花费的时间,所以,这一节我们来总结一下样本和特征需要的事情原创 2017-01-23 14:57:30 · 811 阅读 · 0 评论 -
逻辑回归的相关问题及java实现
本讲主要说一下逻辑回归中的几个问题和具体的参数求解方法1. 什么是逻辑回归2. 正则化项3. 最小二乘法和最大似然法4. java实现梯度下降法实验:样本:-0.017612 14.053064 0-1.395634 4.662541 1-0.752157 6.538620 0-1.322371 7.152853 00.423363 11.054677 00.原创 2014-06-30 23:35:17 · 8848 阅读 · 3 评论 -
数据挖掘之lsh minhash simhash
http://blog.csdn.net/hxxiaopei/article/details/7977248在项目中碰到这样的问题:互联网用户每天会访问很多的网页,假设两个用户访问过相同的网页,说明两个用户相似,相同的网页越多,用户相似度越高,这就是典型的CF中的user-based推荐算法。算法的原理很简单,只要两两计算用户的相似性,针对每个用户,获取最相似的转载 2014-05-28 16:46:22 · 1389 阅读 · 0 评论 -
隐马尔科夫模型(HMM)及其扩展
转载请注明地址(http://blog.csdn.net/xinzhangyanxiang/article/details/8522078)学习概率的时候,大家一定都学过马尔科夫模型吧,当时就觉得很有意思,后来看了数学之美之隐马模型在自然语言处理中的应用后,看到隐马尔科夫模型竟然能有这么多的应用,并且取得了很好的成果,更觉的不可思议,特地深入学习了一下,这里总结出来。马尔科夫过程转载 2013-05-21 17:28:38 · 1208 阅读 · 0 评论 -
VC维计算
出处:http://xyxy100.blog.163.com/blog/static/115572596201041754333345/今天开始看《支持向量机导论》,前面三章讲的还是通俗易懂的。但是第四章看了一节之后,就让人坠入云里雾里了。其中VC维数讲了长长的一大段,看了几遍都是不知所云。于是我只能BAIDU下了。果然,网上很多人对这个问题相当关心的,也有些很经典的解释。我摘录如下:转载 2013-05-21 17:06:50 · 2362 阅读 · 0 评论 -
EM算法估计混合高斯分布的代码示例
EM算法package EM;import java.util.ArrayList;import java.util.List;import java.util.Random;public class KGaussEM { private static int excuteCount = 0; public static void main(String[] args){原创 2013-05-27 19:39:43 · 1906 阅读 · 0 评论 -
主成分分析(Principal components analysis)-最大方差解释
转载于:http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html 在这一篇之前的内容是《Factor Analysis》,由于非常理论,打算学完整个课程后再写。在写这篇之前,我阅读了PCA、SVD和LDA。这几个模型相近,却都有自己的特点。本篇打算先介绍PCA,至于他们之间的关系,只能是边学边体会了。PCA转载 2013-07-08 19:35:04 · 965 阅读 · 0 评论 -
编辑距离的求解方法和代码实现
关于编辑距离的讲解可以参考以下网址:http://www.cnblogs.com/biyeymyhjob/archive/2012/09/28/2707343.html编辑距离就是一个字符串最少经过多少次操作步骤可以变化为另外一个字符串,操作方式包括:删除、添加、修改。删除和添加是自反的,即edit(i-1,j)+1或者edit(i,j-1)+1。后面的加1就是修改和添加的操作代价,修改是ed原创 2013-06-23 17:24:14 · 1061 阅读 · 0 评论 -
plsa代码实现
plsa的代码实现,plsa的原理可参考这个:http://luxinxin.is-programmer.com/user_files/luxinxin/File/plsanote.pdfplsa这里使用em算法来估计其中的参数,已知变量是:文档、单词,未知变量时:主题,假设是:p(w|z),p(z|d)。用EM算法来估计参数主要有两步,在plsa中,E部是根据假设求后验概率P(z|w,d原创 2013-06-23 16:53:45 · 3759 阅读 · 11 评论 -
共轭先验和共轭分布
转载于:http://hi.baidu.com/yangchenhao/item/4d8d0b4a43067c0c6cc2f0ab如果你读过贝叶斯学习方面的书或者论文,想必是知道共轭先验这个名词的。贝叶斯学派和频率学派的区别之一是特别重视先验信息对于inference的影响,而引入先验信息的手段有“贝叶斯原则“(即把先验信息当着均匀分布)等四大类其中有重要影响的一类是:转载 2013-06-24 16:22:20 · 1478 阅读 · 0 评论 -
建议的程序员学习LDA算法的步骤
转载于:http://www.xuwenhao.com/2011/03/20/suggestions-for-programmers-to-learn-lda/这一阵为了工作上的关系,花了点时间学习了一下LDA算法,说实话,对于我这个学CS而非学数学的人来说,除了集体智慧编程这本书之外基本没怎么看过机器学习的人来说,一开始还真是摸不太到门道,前前后后快要四个月了,算是基本了解了转载 2013-07-02 10:13:24 · 1041 阅读 · 0 评论 -
隐马尔可夫模型(一)
1. 隐马尔科夫模型的定义和构成2. 隐马尔科夫模型的三个问题3. 基于隐马尔科夫模型的分词算法实现原创 2013-08-30 14:58:23 · 1391 阅读 · 1 评论 -
Adaboost的java实现
实体类/** * 样例 * @author Administrator * */public class Instance { public double[] dim; //各个维度值 public int label; //类别标号 public Instance(double[] dim, int label) { this.dim = dim; this.原创 2014-02-22 11:30:35 · 3703 阅读 · 1 评论 -
【美团外卖】广告算法 高级研发工程师/技术专家
岗位职责: 1,广告相关算法的研究及开发工作; 2,CTR/CVR预估算法及系统的研发; 3,O2O广告模式、机制策略的探索研究; 4,Query分析及相关性的研究; 5,智能投放、运营侧算法的研究与优化; 岗位要求 : 1,熟练掌握linux下面向对象编程;(熟悉Java最好) 2,熟悉机器学习、数据挖掘知识、NLP; 3,对数据敏感,有较强数据分析和解决问题能力;原创 2017-09-30 10:42:09 · 1009 阅读 · 0 评论