机器学习&DM
文章平均质量分 72
橘子oly
hhhh~越努力越幸运~~~~
展开
-
机器学习实战(一)--K近邻算法实现
本文为参考>所写成。1.原理:不再赘述2.k近邻算法的一般流程(1)收集数据(2)准备数据:最好是结构化的数据格式(3)分析数据(4)训练算法:注意!该步骤不适用于k近邻算法。(注:k近邻是基于实例的算法,不需要训练)(5)测试算法:计算错误率(6)使用算法3.具体实现3.1准备:使用python导入数据首先,创建名为knn.py的python模块。原创 2016-06-23 19:48:02 · 531 阅读 · 0 评论 -
统计学习方法(五)AdaBoost
一.提升方法boosting 如果我有写过集成方法的话[没有的话看这篇集成学习理论],集成方法的一大类就是boosting,其基本思想就是不断地在迭代过程中训练BaseModel,并增加误分样本的权重,直到达到停止条件后,组合BaseModel。从集成学习的理论我们知道boosting在组合过程中会增大模型的variance,所以BaseModel必须是低bias但低varian原创 2016-11-30 11:46:38 · 790 阅读 · 0 评论 -
xgboost调参
Xgboost调参英文版参考:https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/ Xgboost经常被用作许多数据科学家的终极武器—有多厉害不用强调了。但是使用xgboost很简单,提高其性能就很难了。算法有太多的参数,为了提高原创 2016-11-30 19:11:51 · 1973 阅读 · 0 评论 -
xgoost原理篇
参考xgboost官方介绍占坑先,想起来了会填的~原创 2016-11-30 19:10:35 · 1697 阅读 · 0 评论 -
秩
昨天看到一个面试题,让介绍什么是秩,其实这个可能对学好了线性代数的人来说是很basic的问题吧,可是无奈数学里我最最讨厌的就是线性代数了,当初大一的时候压根没学明白。 言归正传,单独给秩开一篇博客,是因为早上看到知乎的大神对秩的解释简直不要太好,贴上来,保存一下。下面的回答是按2我个人的喜好程度排的,hhh回答1:秩就是基的个数,基就是特征,基就用最小的粒度能够描述所有原创 2016-12-01 16:29:40 · 1330 阅读 · 0 评论 -
统计学习方法(三) logisitic回归与最大熵模型
前言:本文实际为阅读众多LR相关资料总结而成,其中logistic回归--方法与应用 一书使我受益匪浅。在机器学习实战的逻辑斯蒂回归中我们有讲到,logistic模型就是使用sigmoid函数拟合条件概率,具体地:此前,我的主要理解仅限于sigmoid函数及其函数图像形式。但是为什么使用这个函数来拟合自变量和因变量之间的关系呢?一.线性回归模型LRM线性回归模型常用于定原创 2016-10-09 15:46:06 · 2317 阅读 · 0 评论 -
统计学习方法(二)决策树
注:这篇文章标题虽然是>系列,但实际上我写的时候是脱离书本写的,距离上一次看那一章节也有一段时间了,所以主要作用是自我巩固、理解,大概会想到哪写哪吧~一.DT概述决策树是if-then规则,是对条件概率的学习。根据统计学习方法,我们考虑其三要素对应是什么:模型-----一种描述对实例进行分类的树形结构。策略-------与训练数据矛盾较小的决策树,同时有很好的泛化能力。实质原创 2016-10-05 16:06:41 · 528 阅读 · 0 评论 -
《高维数据的聚类分析研究及其应用》读书笔记
一、高维聚类の研究方向 由于高维数据的稀疏性等特征,使得在高维聚类的研究中有如下几个研究重点:1)维度约简,主要分为特征变换和特征选择两大类。前者是对特征空间的变换映射,常见的有PCA、SVD等。后者则是选择特征的子集,常见的搜索方式有自顶向下、随机搜索等;2)高维聚类算法,主要分为高维全空间聚类和子空间聚类算法。前者的研究主要聚焦在对传统聚类算法的优化改进上,后者则可以原创 2016-12-13 09:36:24 · 9782 阅读 · 1 评论 -
EM算法
一.EM算法基本介绍 和一般的算法目标一样,我们用最大似然估计,对参数进行估计l(θ) = ∑P(yi|θ)由于某些原因,你发现这个不好求(NP hard问题),于是引入了一个隐变量(latent variable),并把上式改写成了l(θ) = ∑P(yi|θ) = ∑∑P(yj,zj|θ) [注:里面一个求和是对所有可能的z求和,外面的求和是对y]然后通过神奇原创 2016-12-03 21:15:34 · 707 阅读 · 0 评论 -
kdtree&knn
前言:本文关于kdtree的知识基本来源于kdtree_wiki一、what's kdtree kdtree是 k-dimensional tree的缩写,它是一种用于组织k维空间中数据点的基于空间划分的数据结构。kdtree常用于搜索多维搜索词,包括区间搜索和最近邻搜索。kdtree是一种二叉树结构,它是BSP(Binary space partationing)树的一原创 2016-12-12 10:51:54 · 9066 阅读 · 0 评论 -
机器学习中的范数规则化
机器学习中的范数规则化之(一)L0、L1与L2范数zouxy09@qq.comhttp://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文。知识有限转载 2016-11-17 15:08:16 · 385 阅读 · 0 评论 -
kaggel入门比赛_HousePrices
kaggle入门系列比赛HousePrices,该比赛是一个经典的回归问题,预测房价,这个比赛我用来熟悉kaggle,熟悉基本的数据挖掘流程,主要是特征工程,包括常见的缺失值填补,categorial特征的处理,其实主要就是熟悉用python的pandas包对数据进行预处理。第一次尝试的过程我主要是参考了Regularized Linear Models这篇kernel,它对数据的处理就是一些原创 2016-11-08 20:29:50 · 4417 阅读 · 0 评论 -
统计学习方法(一)统计学习方法概论
统计学习方法是一种从数据中发现知识并应用到预测的一类方法,更严谨的定义是“关于计算机数据构建概率统计模型并运用模型对数据进行预测和分析的一门学科”。 统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法,简称为模型、策略和算法三要素。1.模型统计学习方法所建立的是输入空间到原创 2016-09-20 17:05:50 · 445 阅读 · 0 评论 -
特征工程
原创 2016-11-03 11:01:41 · 210 阅读 · 0 评论 -
机器学习实战(二)--决策树
1.决策树的构造在构造决策树时,第一个问题就是当前数据集上哪个特征在划分数据分类时起决定性作用。为了找到决定性的特征,划分出最好的结果,我们必须评估每个特征。决策树的一般流程如下:(1)收集数据(2)准备数据:树构造算法只适用于标称型数据,因此数值型数据必须离散化。(3)分析数据:构造树完成之后,我们应该检查图形是否符合预期。(4)训练算法:构造树的数据结构。(5)测试原创 2016-06-24 19:50:23 · 1258 阅读 · 0 评论 -
机器学习实战(三)--朴素贝叶斯
to be continued...原创 2016-09-29 15:48:39 · 236 阅读 · 0 评论 -
机器学习实战(四)--逻辑斯特回归
一.sigmoid函数1.函数思想当我们想生成一个函数,通过这个函数我们给定特征值,就能预测输出。对二分类问题,很容易我们会想到阶跃函数(函数输出0或1)。但这种阶跃性很多时候处理起来都是困难的,自然地,我们想要一个平滑过渡版的阶跃函数。这种数学上更易于处理的过渡更平滑的函数就是sigmoid函数。2.函数形式可以看到下面那张图已经非常接近阶跃函数了,只不过中间的过渡是平滑原创 2016-09-30 10:51:39 · 1404 阅读 · 0 评论 -
统计学习方法(四) 支撑向量机
又再一次看到SVM这一章了啊,其实每次想起SVM我内心都是十分?敬畏(误)?的,其原始思想倒是易懂,但其中涉及到的对偶问题转换,凸二次规划问题,核函数,正定核,SMO,这些用法里面每一个都包含太多公式,太多推导。对于其中的一些数学思想,我以为自己不应当去深究了,但同时我又对知识充满了?渴求(大误)?,额。。一.支撑向量机模型:超平面w*x+b=0, 决策函数f(x) = sign(w*x+原创 2016-10-13 10:55:22 · 322 阅读 · 0 评论 -
An Introduction to Conditional Random Fields[条件随机场介绍]
An Introduction to Conditional Random FieldsBy Charles Suttonand Andrew McCallum文献网址:http://homepages.inf.ed.ac.uk/csutton/publications/crftut-fnt.pdf[译]条件随机场介绍By wttttt2.Modeling建模本节我们从建模翻译 2016-10-27 16:48:10 · 2514 阅读 · 0 评论 -
gensim的word2vector测试_基于中文wiki语料
1.安装gensim pip install gensim会报一个问题,可以直接忽略。2.下载wiki语料wget https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz23.用WikiExtractor抽取正文文本nohup python WikiExtractor.py -cb原创 2016-10-27 15:11:13 · 1645 阅读 · 0 评论 -
数据挖掘之缺失值填补常见手段
占坑先~原创 2016-11-08 20:04:56 · 8059 阅读 · 1 评论 -
Skinny-dip clustering in the sea of noise
粗读理解论文主要工作 贡献 理解一些相关工作: * unimodality:wiki_unimodality 单峰性数学上是指处理一个唯一的模式(只有一个单一的最大值)。 * mode:mode_wiki The mode is the value that appears most often in a set of data. * modal interval:introduct原创 2017-01-12 11:41:55 · 761 阅读 · 0 评论