自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

xceman1997的专栏

基础知识、c/c++语言、自然语言处理技术

  • 博客(17)
  • 资源 (2)
  • 收藏
  • 关注

原创 Naive Bayes(c++)源代码下载

2012年写的代码了,用到垃圾文本分类上面,写了《【朴素贝叶斯】实战朴素贝叶斯》系列博文。关键代码和讲解都贴到博文中了,原则上,看了博文应该能够还原出所有代码。不过看到评论里还是有人想直接用完整代码。这两天整理硬盘,把代码又找到了。放到google code上,供大家参考:代码project主页:https://code.google.com/p/naivebayesclassifie

2014-01-24 00:22:03 2256 1

原创 第三次实现Logistic Regression(c++)_再尝试

写了三个Logistic Regression的实现,发了好几篇博文,我都有点儿写上瘾了。这一篇再进一步聊一下SGD的程序实现。从前的代码实现框架是这个样子:// the sample format: classid feature1_value feature2_value...bool LogisticRegression::TrainSGDOnSampleFile (

2014-01-20 23:37:15 1319

原创 Logistic Regression(c++)源代码下载

把源代码上传到google code上去了。从前也没贡献过什么开源代码,这方面没什么经验,感觉google招牌大,就用它了。传上去,除了给共同学习者参考之外,还有一个作用就是给自己备份——很多时候自己很久以前写的东西,就想不起来放哪儿了。代码project主页:http://code.google.com/p/logistic-regression-cplusplus/代码下载页:

2014-01-18 15:27:44 2026 2

原创 第三次实现Logistic Regression(c++)_测试

1. 数据scaling前的数据:0 92:5 112:1 115:8 141:1 150:1 180:3 193:1 293:5 395:1 473:1 588:1 601:2 629:1 712:2 713:1 714:3 753:2 759:16 761:1 766:1 776:1 803:1 813:1 841:1 941:1 1055:1 1070:1 1186:3 1268:6

2014-01-18 14:56:27 4668

原创 第三次实现Logistic Regression(c++)_实现(二)

2. SGD训练SGD权重更新方式,同LR二分类的基本相同;所不同的是,二分类LR只用训练一个权重向量,而K分类LR需要训练K-1个权重向量。函数接口如下:// train by SGD on the sample filebool TrainSGDOnSampleFile ( const char * sFileName, int iClassNum, int iFeatureN

2014-01-18 14:19:08 1668

原创 第三次实现Logistic Regression(c++)_实现(一)

1. scale为什么要对输入数据做scale?在《再次实现Logistic Regression(c++)_实现和测试》给出的理由是这样一句话“由于sigmoid函数在计算机中的精度限制,我们必须对实值输入进行归一化处理。” 具体的来说,是指数函数exp在计算中的精度限制,才需要对数据进行处理。scale的接口为// scale all of the sample values an

2014-01-18 01:27:28 1671

原创 第三次实现Logistic Regression(c++)_接口

看《我是歌手》第三期回放,张宇唱得实在太烂,还是回来写会儿blog吧。1. 初衷前两次实现,第一次的输入特征限于0-1特征,第二次限于实值特征,两者混用的还没尝试过,这次也不打算尝试。前面实现的都是二分类问题,在现实生活中,最经常遇到的还是多分类问题。由二分类器转成多分类器有两种方法:one vs all,or one vs one。前者,对于K个类别,建立K个分类器,每个分类器区

2014-01-18 00:44:07 1704

转载 【转载】52nlp博客上的资源

资源这里提供一些52nlp博客的一些系列文章以及收集的自然语言处理相关书籍及其他资源的下载,陆续整理中!如有不妥,我会做删除处理!特别推荐系列:1、HMM学习最佳范例全文文档2、无约束最优化全文文档 -by@jianzhu3、PYTHON自然语言处理中文翻译-NLTK Natural Language Processing with Python 中文版,陈涛sean

2014-01-17 22:21:54 2034

原创 再次实现Logistic Regression(c++)_实现和测试

1. 实现相比上面的实现,主要是随机梯度下降的算法代码稍有变动。变动后,模型训练实现如下:// the update formula is : theta_new = theta_old - dLearningRate * (dY - iClass) * dXivoid LogisticRegression::UpdateThetaVec(Sample & theSample, do

2014-01-11 12:11:00 1920 1

原创 再次实现Logistic Regression(c++)_接口

上面的那个LR实现中,作了如下限制:输入特征都是0-1特征。在实际问题中,对于以枚举类型为主的特征,加入这种限制后,特征转化成0-1特征是非常方便的;但如果输入特征绝大部分是实值特征,则需要将这些特征映射到固定区间、然后转成枚举特征、最后映射为0-1特征,这个过程存在信息损失的。现在这个LR特征,则改为输入特征完全为实值特征,在此基础上进行0-1分类。具体接口如下:#pragma

2014-01-11 11:56:11 1876

转载 【转载】Stanford机器学习---第三讲. 逻辑回归和过拟合问题的解决 logistic Regression & Regularization

原文地址:http://blog.csdn.net/abcjennifer/article/details/7716281本栏目(Machine learning)包括单参数的线性回归、多参数的线性回归、Octave Tutorial、Logistic Regression、Regularization、神经网络、机器学习系统设计、SVM(Support Vector Ma

2014-01-08 00:20:10 1233

原创 动手实现Logistic Regression (c++)_测试_再次

上文中招的数据集和有点儿小,再找个大点儿的尝试下。这次找的是libsvm的一个数据集合,预测是否是成年人的,共123个特征,训练集1605个样本,测试集30956个样本。原始数据可以从这个链接下载:http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary.html数据样例:0 5 7 14 19 39 40 51 6

2014-01-06 20:44:56 1617

原创 动手实现Logistic Regression (c++)_数据

把原始样本数据贴出来,供需要的同学还原上面测试结果。1 0 4 70 1 2 4 61 0 1 2 3 4 5 7 90 1 4 71 2 3 5 7 90 4 7 8 91 0 1 2 3 4 71 0 1 3 4 5 6 8 90 2 4 5 6 8 91 0 3 41 0 1 3 4 5 71 2 3 4 8 91 0 1 3 4 6 7 81 0 1 2 7

2014-01-05 14:21:19 1111

原创 动手实现Logistic Regression (c++)_测试

承上文,接口有了,实现晚了,就找点儿数据测吧。整个过程是在windows vs2008下完成。数据样例如下:1 0 1 2 5 81 1 3 4 7 81 01 0 1 4 5 8 91 0 1 2 4 5 90 4 5 7 81 0 21 2 3 5 6 7 81 0 3 4 5 6 71 0 1 2 4 5 7 8 9数据来源是从 http://komarix

2014-01-05 14:15:05 1307

原创 动手实现Logistic Regression (c++)_实现

模型实现起来,就两个主要任务:训练和预测。先看训练部分。函数的名字是TrainSGDOnSampleFile,写完整了就是“train the model by stochastic gradient descent on the file containing samples” ,算法就是SGD了(不是GD)。实现如下:// the sample format: classid featur

2014-01-05 13:42:23 1974 2

原创 动手实现Logistic Regression (c++)_接口

1. 初衷从前求学的时候,大致了解logistic regression——原理、应用场合,等等。这段时间工作需要,又找了些资料,重新回顾了一下。一直以来我都有个观点:一个机器学习模型,如果没有一行行代码亲自实现过,就谈不上真正了解它。周末在家,啤酒音乐作伴,码了一个简单LR c++实现,贴出来供大家参考。2.  限制LR模型很简单,不过在具体应用的时候,还是有很多tric

2014-01-05 12:43:53 2082

原创 【LR学习笔记】Parallel Large Scale Feature Selection for Logistic Regression_2009

主要内容:google的人写的,2009年发表在《society for industrial and applied mathematics》上面。主要是提出一种forword feature selection方法,给出一种计算feature score的度量,用来为LR模型选择feature。并将这种方法在hadoop上实现。具体内容:1. 综述(1)高维数据

2014-01-03 00:41:08 2625

Addison Wesley - Applied C++

Addison Wesley - Applied C++

2011-02-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除