自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 资源 (1)
  • 收藏
  • 关注

转载 机器学习排序之Learning to Rank简单介绍

PS:文章主要转载自CSDN大神hguisu的文章"机器学习排序":          http://blog.csdn.net/hguisu/article/details/7989489      最近需要完成课程作业——分布式排序学习系统.它是在M/R、Storm或Spark架构上搭建分布式系统,并使用学习排序Pointwise、Pairwise和Listwise三大类算法实现对微软

2016-07-29 10:11:09 900

原创 LR其实是可以做一下特征离散化的

今天听组里人聊天,说LR需要把特征离散化,但是GBDT并不需要把特征离散化;我很疑惑,我记得lr并不需要离散化啊。后来听他们说,LR更适合处理稀疏数据,那么把特征先离散化到4个特征维度(假设的),然后以后遇到这个特征的时候,实际上就是四个特征中的一个有值了。【实际上是做了一个哑变量处理】以下摘自知乎: 3. 逻辑回归属于广义线性模型,表达能力受限;单变量离散化为N个后,每个变量有单独的权重,相当于

2016-07-29 09:48:47 3880

转载 LIBSVM与LIBLINEAR

## LIBSVM与LIBLINEAR(一) 在过去的十几年里,支持向量机(Support Vector Machines)应该算得上是机器学习领域影响力最大的算法了。而在SVM算法的各种实现工具中,由国立台湾大学林智仁老师开发的工具包LIBSVM,又无疑是影响力最大的。2011年LIBSVM的系统介绍论文“LIBSVM: a library for support vector machine

2016-07-28 15:41:22 831

转载 浅谈利用逻辑回归来解决文本分类时的模型调优

http://blog.csdn.net/busycai/article/details/6159109 本文适合有少许文本分类实践经验的同学。1.什么是文本分类?简单点说,给定类别,将文本分到某个或某几个类别中。比如,一篇网页,判断它是体育类还是政治类还是娱乐类。当然网页比文本稍微复杂一些,需要先做一些页面解析等预处理工作。文本分类可看作网页分类的一个子问题。想继续了解文本分类,推荐看计算所王斌

2016-07-28 13:33:23 2262

原创 移动零 【in_place的理解】

给一个数组 nums 写一个函数将 0 移动到数组的最后面,非零元素保持原数组的顺序 注意事项1.必须在原数组上操作 2.最小化操作数样例给出 nums = [0, 1, 0, 3, 12], 调用函数之后, nums = [1, 3, 12, 0, 0].解答对于这道题我最开始用的方法很快速。。就是用Python先筛一圈不为零的,然后再筛一圈为零的【个数】,添加在后头。不过报错了。后来想明白报

2016-07-23 13:40:50 1130

原创 汉字数字与阿拉伯数字的转换

网上看了许多说法,感觉这个事情本身不复杂,不过也没许多人嘴炮说得那么简单。想法谁都有,都觉得自己能实现,不过许多人“信誓旦旦”地把这个写了之后,发现会报各种各样的错误。在此我把代码写上,附上我的想法。1.区分各种项1.1 转换项这种最简单,1——一,2——二,以此类推。记住不要忘了0——零1.2 数量级项十——10,百——100,千——1000,记住没有万,因为万和亿很特殊,前后的级数都是数字计数法

2016-07-19 14:16:19 2781

原创 十进制,二进制的转换

今天没事儿刷了个题,本以为是十分easy的题目,结果结实把我恶心了一阵。。。就是一个简单的十进制二进制转换的问题二进制求和描述 笔记 数据 评测 给定两个二进制字符串,返回他们的和(用二进制表示)。您在真实的面试中是否遇到过这个题? Yes 样例 a = 11b = 1返回 100解法:很简单,先把二进制转换为十进制,然后加和,然后再转换为2进制。需要注意的是,二进制to十进制很容

2016-07-14 21:32:12 428

原创 SGDClassifier和LR,SVM的区别

看了许多文献,以及最近的项目经验,终于真正地搞懂了LR。以前总听大家说,看你对机器学习搞得透彻不透彻,就看你逻辑回归理解得怎么样;自己是统计出身的我,一直很有自信,以为无非就是个极大似然估计,求那个似然函数的极大值而已。然而实际上,这个之中也有很多的说法在里面,比如,求参数的方法。在逻辑回归中,我们极大似然估计的参数是可以通过“极大化该参数值”得到的,然而得到参数之后,并不代表我们就完成了,因为成千

2016-07-07 19:54:32 17704 1

转载 cross-validation:从 holdout validation 到 k-fold validation

http://blog.csdn.net/lanchunhui/article/details/50522424构建机器学习模型的一个重要环节是评价模型在新的数据集上的性能。模型过于简单时,容易发生欠拟合(high bias);模型过于复杂时,又容易发生过拟合(high variance)。为了达到一个合理的 bias-variance 的平衡,此时需要对模型进行认真地评估。本文将

2016-07-07 10:46:28 800

转载 各大公司广泛使用的在线学习算法FTRL详解

https://www.52ml.net/16256.html现在做在线学习和CTR常常会用到逻辑回归( Logistic Regression),而传统的批量(batch)算法无法有效地处理超大规模的数据集和在线数据流,google先后三年时间(2010年-2013年)从理论研究到实际工程化实现的FTRL(Follow-the-regularized-Leader)算法,在处理诸

2016-07-04 18:52:07 668

Numpy学习指南代码

书籍:Numpy学习指南代码.那本书是Python数据分析的入门书籍

2016-02-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除