![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 89
accumulate_zhang
我好像什么都不会,真的!!!
展开
-
浅谈矩阵分解在推荐系统中的应用
为了方便介绍,假设推荐系统中有用户集合有6个用户,即U={u1,u2,u3,u4,u5,u6},项目(物品)集合有7个项目,即V={v1,v2,v3,v4,v5,v6,v7},用户对项目的评分结合为R,用户对项目的评分范围是[0, 5]。R具体表示如下: 推荐系统的目标就是预测出符号“?”对应位置的分值。推荐系统基于这样一个假设:用户对项目的打分越高,表明用户转载 2016-07-26 20:53:18 · 1080 阅读 · 0 评论 -
模型的偏差与方差的理解
本文转载于版权声明:本文为博主原创文章,欢迎转载,但请注明出处~目录(?)[+]模型的偏差和方差的权衡和讨论其实是贯穿在整个机器学习理论当中的。机器学习的每一个算法或者模型都有对这两方面的判断和取舍。今天在看scikit-learn文档关于集成学习的论述中又提到偏差和方差,所以我想谈一谈我对这两个概念的理解。集成学习集成学习是一种组合类型转载 2017-03-18 10:26:58 · 15554 阅读 · 0 评论 -
清华THULAC分词软件python版使用
在使用结巴分词时候感觉在实验时候不太准确,所以试试其他的分词软件。大概去年五月份接触清华这个分词软件,不过当时没学过python,其他语言也用的不好,所以对如何编译和安装它显得十分笨重,所以今天再次去倒腾这些,发现编译安装挺简单,这说明我比以前有进步啊!哈哈,还是多学点东西,多自己倒腾,这样好好很多。 具体安装编译看http://thulac.thunlp.org/,上面有步骤,下载相原创 2017-03-21 22:46:30 · 16631 阅读 · 12 评论 -
机器学习实战-CART分类回归树
树回归 虽然线性回归有强大的功能,但是在遇到数据具有很多特征时且特征之间具有复杂的关系时,构建全局的模型就显得比较难,而且也比较笨重,而且实际中处理的数据一般都是非线性的,不可能用全局线性模型来拟合任何数据。一种可行的方法就是将数据集切分成很多易建模的数据,首次切分后难以拟合就继续切分,在这种切分方式下,树结构和回归法就相当有用。 9.1 复杂原创 2017-03-18 12:00:54 · 1757 阅读 · 1 评论 -
使用gensim中的lda模型训练主题分布
一直在寻找各种大神的LDA算法,不过调试一直没有成功,最后还是选择使用gensim的LDA工具来训练自己的文本数据吧。#coding=utf-8import codecsfrom gensim import corporafrom gensim.models import LdaModelfrom gensim.corpora import Dictionaryfr=open('cl原创 2017-03-16 22:32:41 · 25338 阅读 · 28 评论 -
决策树decision tree+SVM+knn+随机森林+高斯贝叶斯
决策树decision tree+SVM+knn+随机森林+高斯贝叶斯Decision Tree决策树是无参数的监督学习算法,可用于分类和回归,它的目标是通过学习从数据特征推断得到的决策规则,构建一个可以预测目标变量的决策模型。举个例子,下图来看,这个决策树,结合一些决策规则从数据中学习,得到一个近乎正弦曲线。这棵树越深,决策规则越复杂,模型越适合,越具有拟合性。原创 2017-08-24 21:18:38 · 5726 阅读 · 0 评论 -
Stacking 在机器学习中的应用,以kaggle titanic为例
之前自己玩了一下kaggle上的入门级别的比赛,泰坦尼克号生存预测。随便进行了简单的特征选择,直接用sklearn中的模型,直接跑结果,大概能跑到0.77左右。三千多名。近段时间稍微闲下来了,开始着手做一些机器学习相关的比赛。然后想着提升上次的模型,或者在社区看看别人用的是什么模型。然后看到一篇高票的文章。Introduction to Ensembling or St原创 2017-11-09 15:40:20 · 1183 阅读 · 0 评论 -
LabelEncoder和OneHotEncoder 在特征工程中的应用
对于一些特征工程方面,有时会用到LabelEncoder和OneHotEncoder。比如kaggle中对于性别,sex,一般的属性值是male和female。两个值。那么不靠谱的方法直接用0表示male,用1表示female 了。上面说了这是不靠谱的。所以要用one-hot编码。首先我们需要用LabelEncoder把sex这个属性列里面的离散属性用数字来表示原创 2017-11-12 11:06:59 · 26388 阅读 · 5 评论 -
在win10下安装xgboost, python 为3.5
在做一些数据分析方面的小练习或者小竞赛,有个神器是xgboost,一直没有去了解或者投入到实战中,今天突然想起来,就查了一些资料把它安装起来,然后再继续去使用它。下面给出安装过程。1.首先在这个链接下,下载符合自己环境的xgboost安装包,https://www.lfd.uci.edu/~gohlke/pythonlibs/2.下载之后,你可以原创 2017-11-06 15:06:07 · 326 阅读 · 0 评论 -
XGBoost详细了解
原文地址:Complete Guide to Parameter Tuning in XGBoost by Aarshay Jain 原文翻译与校对:@MOLLY && 寒小阳 (hanxiaoyang.ml@gmail.com) 时间:2016年9月。 出处:http://blog.csdn.net/han_xiaoyang/article/details/52665396转载 2017-11-06 15:31:37 · 419 阅读 · 0 评论 -
搞懂一般的stacking和blending只需一张图片
搞懂一般的stacking和blending只需一张图片,搞不懂我把这张图片的纸吃了!!!下面再简单参考一下其他博主的对于这两种集成方法的比较:Blending的优点在于:1.比stacking简单(因为不用进行k次的交叉验证来获得stacker feature)2.避开了一个信息泄露问题:generlizers和stacker使用了不一样的数据集3.在团队建模过程中,不需...原创 2018-08-30 21:36:27 · 1393 阅读 · 2 评论 -
EM算法的简单学习与理解
该博客主要参考http://blog.csdn.net/livecoldsun/article/details/40833829该作者的博客,在此基础上加入自己的理解,并整理了一下,作为自己的学习文档,方便日后复习与查阅,若有侵犯到权益的话,望立即告知,会立即做出修改。2.2EM算法描述2.3EM算法原理参考文献:1.http://blo原创 2017-02-01 15:00:16 · 443 阅读 · 0 评论 -
scikit-learn SVM
本文转载其他博主资料,转载地址为http://www.w2bc.com/article/131097======================================================================本系列博客主要参考 Scikit-Learn 官方网站上的每一个算法进行,并进行部分翻译,如有错误,请大家指正 转载请注转载 2016-12-30 10:48:26 · 1417 阅读 · 0 评论 -
基于矩阵分解的推荐算法,简单入门
基于矩阵分解的推荐算法,简单入门 本文将要讨论基于矩阵分解的推荐算法,这一类型的算法通常会有很高的预测精度,也活跃于各大推荐系统竞赛上面,前段时间的百度电影推荐最终结果的前10名貌似都是把矩阵分解作为一个单模型,最后各种ensemble,不知道正在进行的阿里推荐比赛(http://102.alibaba.com/competition/addDiscovery/转载 2016-07-26 22:18:54 · 1390 阅读 · 0 评论 -
转载 机器学习--正则化理解
1. The Problem of Overfitting1还是来看预测房价的这个例子,我们先对该数据做线性回归,也就是左边第一张图。如果这么做,我们可以获得拟合数据的这样一条直线,但是,实际上这并不是一个很好的模型。我们看看这些数据,很明显,随着房子面积增大,住房价格的变化趋于稳定或者说越往右越平缓。因此线性回归并没有很好拟合训练数据。我们把此类情况称为欠转载 2016-07-27 17:01:00 · 413 阅读 · 0 评论 -
安装 numpy
作者:陈皇宇 Renco链接:https://www.zhihu.com/question/29521273/answer/45914661来源:知乎著作权归作者所有,转载请联系作者获得授权。我估计你用的是Windows,虽然很多人推荐你用Enthought和Anaconda但是那个会剥夺你很多学习体验。如果你知道怎么用CMD/Powershell的话,先把Python的文件夹转载 2016-07-27 20:29:15 · 1077 阅读 · 0 评论 -
转载 感谢原作者 目前最全的windows平台下:scikit-learn安装教程
目前最全的windows平台下:scikit-learn安装教程字数697 阅读3747 评论1 喜欢3目前最全的windows平台下:scikit-learn安装教程目前最全的windows平台下:scikit-learn安装教程1 scikit-learn安装1.1 scikit-learn是什么?》Machine Learni转载 2016-07-29 11:31:16 · 740 阅读 · 0 评论 -
Windows7下安装python2.7及科学计算套装安装(scipy、numpy、matplotlib)
Windows7下安装python2.7及科学计算套装安装(scipy、numpy、matplotlib)python2.7 numpy scipy matplotlib MrZONT 2015年03月04日发布推荐 1 推荐收藏 1 收藏,5.2k 浏览安装环境及说明操作系统:64位win转载 2016-07-29 14:02:30 · 1451 阅读 · 0 评论 -
机器学习基础算法---KNN算法
这篇博客是参考下面这个博主的这篇文章,http://blog.csdn.net/zouxy09/article/details/16955347写得非常好,让我学到了很多知识点,也让我巩固了有关于numpy的一些矩阵用法,调用python脚本等知识,非常感谢这位博主。再学习了他的这篇博客后,把代码自己敲了一遍,加上了自己在阅读代码时的中文注释;利用他的数据集进行了测试,也得到了相应的结果。原创 2016-10-25 14:26:55 · 1458 阅读 · 0 评论 -
机器学习实战——简单决策树ID3学习
这是看机器学习实战和周志华的西瓜书的决策树代码,自己敲下来的代码,加上自己的注释理解。相关数据应该到处都能下载到。可以直接运行代码。#coding=utf-8from math import logimport operator'''信息熵计算函数'''def calcShannonEnt(dataset): numSamples=len(dataset)原创 2016-11-15 23:08:02 · 635 阅读 · 0 评论 -
学习bp神经网络 详细教程
本文转载,比较详细,有助于学习!原文地址在此http://python.jobbole.com/82758/感谢原作者,非常感谢!本文由 伯乐在线 - 耶鲁怕冷 翻译,Namco 校稿。未经许可,禁止转载!英文出处:iamtrask。欢迎加入翻译组。概要:直接上代码是最有效的学习方式。这篇教程通过由一段简短的 python 代码实现的非常简单的实例来讲解 BP 反向传播转载 2016-11-21 22:10:09 · 8018 阅读 · 0 评论 -
转载的BPNN学习资料
原文地址http://www.cnblogs.com/Finley/p/5946000.html感谢作者写下这么好的资料BP神经网络与Python实现人工神经网络是一种经典的机器学习模型,随着深度学习的发展神经网络模型日益完善.联想大家熟悉的回归问题, 神经网络模型实际上是根据训练样本创造出一个多维输入多维输出的函数, 并使用该函数进行预测, 网络的训练过程转载 2016-11-21 22:51:18 · 977 阅读 · 0 评论 -
一文读懂BP神经网络
转自一位懂生活的女神的博客园的文章。http://www.cnblogs.com/charlotte77/p/5629865.html 最近在看深度学习的东西,一开始看的吴恩达的UFLDL教程,有中文版就直接看了,后来发现有些地方总是不是很明确,又去看英文版,然后又找了些资料看,才发现,中文版的译者在翻译的时候会对省略的公式推导过程进行补充,但是补充的又是错的,难怪觉得有问题。反向传播法其转载 2016-11-24 18:49:44 · 31257 阅读 · 14 评论 -
三张简图搞懂GBDT
首先假设你有初步的了解什么是决策树,CART树,集成,Adaboost, boosting的一些概念。下面我们先了解什么是提升树 都知道,在每个基分类器(CART树)生成的过程,有一个最小化损失函数的步骤,那么对于回归树来说,当我们使用的损失函数是平方损失误差的话,来看看是什么情况:(注意图片上的标注红字)看了红字,我觉得大家应该能理解有些书上说的残差,拟合什么的了。...原创 2018-08-29 10:00:28 · 1846 阅读 · 1 评论