ml
mllhxn
这个作者很懒,什么都没留下…
展开
-
随机森林与treeBoost
RandomForest随机森林,指的是利用多棵树对样本进行训练并预测的一种分类器。简单来说,随机森林利用随机的方式将许多决策树组合成一个森林,每个决策树在分类的时候投票决定测试样本的最终类别 随机森林主要包括4个部分:随机选择样本;随机选择特征;构建决策树;随机森林投票分类。1.随机选择样本给定一个训练样本集,数量为N,我们使用有放回采样到N个样本,构成一个新的训练集。注意这里是有放回的采样,所转载 2016-11-23 10:20:35 · 1739 阅读 · 0 评论 -
FPGROWTH算法 理论
FPGROWTH算法 fpgrowth算法–构建FP树 fpgrowth算法–找频繁项集 FP-growth算法实现原创 2016-03-14 17:06:58 · 1275 阅读 · 0 评论 -
Apriori 算法 实例
mushroom.dat 1 3 9 13 23 25 34 36 38 40 52 54 59 63 67 76 85 86 90 93 98 107 113 2 3 9 14 23 26 34 36 39 40 52 55 59 63 67 76 85 86 90 93 99 108 114 2 4 9 15 23 27 34 36 39 41 52 55 59 63 67原创 2016-03-14 15:50:07 · 3539 阅读 · 1 评论 -
Apriori 算法 理论
关联规则的基本模型—规则 关联规则的基本模型—置信度 关联规则的基本模型—支持度 关联规则基本概念 频繁项集举例 关联规则举例 Apriori的步骤 Apriori的重要性质 Apriori算法实例—产生频繁项集 Apriori算法实例—产生关联规则 Apriori算法思想总结 Apriori算法代码 由L(k-1)生成候选集Ck 从频繁项集中挖掘关联规则原创 2016-03-14 15:16:24 · 1497 阅读 · 0 评论 -
贝叶斯决策
贝叶斯公式 简单的例子 先验概率 先验概率的一些问题 后验概率 决策 最小错误率决策 最小风险贝叶斯决策 最小风险决策 贝叶斯决策理论的分类方法原创 2015-12-11 20:57:43 · 704 阅读 · 0 评论 -
线性代数基础知识-2
广义线性模型 泊松分布,伽马分布,指数分布,多元高斯分布,Beta分布,Dirichlet分布等等都是指数分布族。根据这些分布的概率密度函数可以建立相应的模型,这些都是广义线性模型的一个实例。 高斯分布 幂律分布(长尾分布) 幂律分布的应用数理统计的基本概念 样本的矩 矩估计 极大似然估计(最大似然估计) 极大似然估计MLE 正态分布的极大似然估计 化简原创 2015-12-11 20:06:44 · 549 阅读 · 0 评论 -
线性代数基础知识-1
事件的关系与运算概率的基本公式 贝叶斯公式 独立重复试验 随机变量及其概率分布 随机变量的数字特征 期望的性质 方差 协方差与协方差矩阵 协方差的一般的表示 协方差矩阵 协方差的意义 协方差和独立、不相关 相关系数(皮尔森相关系数) 常见分布两点分布 二项分布 泊松分布 均匀分布 指数分布 正态分布(高斯分布)原创 2015-12-11 19:39:14 · 699 阅读 · 0 评论 -
正态分布(Normal distribution)又名高斯分布(Gaussian distribution)
转:http://blog.csdn.net/rns521/article/details/6953591正态分布(Normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。若随机变量X服从一个数学期望为μ、标准方差为σ2的高斯分布,记为:转载 2016-04-13 10:20:58 · 1260 阅读 · 0 评论 -
局部加权线性回归
局部加权线性回归 权值 求解 结果原创 2016-04-13 20:42:00 · 384 阅读 · 0 评论 -
逻辑回归应用之Kaggle泰坦尼克之灾
作者: 寒小阳 时间:2015年11月。 出处:http://blog.csdn.net/han_xiaoyang/article/details/49797143 声明:版权所有,转载请注明出处,谢谢。1.引言先说一句,年末双十一什么的一来,真是非(mang)常(cheng)欢(gou)乐(le)!然后push自己抽出时间来写这篇blog的原因也非常简单:写完转载 2016-12-15 17:00:22 · 994 阅读 · 0 评论 -
特征处理
特征总体分为几个类型 数值型 类别型 时间型 文本型 统计型 组合型 幅度调整/ / 归一化数值型特征 处理幅度调整到 [0,1] 范围内:MinMaxScaler() 归一化 统计值 max, min, mean, std离散化 就是做成区间形式Hash 分桶粪桶和离散化类似,离散化是分成区间形式,分桶则是利用kmeans(聚类) 聚成桶在计算每个类别下对应的变量统计值 his转载 2016-11-24 12:25:41 · 681 阅读 · 0 评论 -
XGBoost模型调优
XGBoost模型调优加载要用的库In [1]:import pandas as pdimport numpy as npimport xgboost as xgbfrom xgboost.sklearn import XGBClassifierfrom sklearn import cross_validatio转载 2016-12-16 17:29:44 · 3327 阅读 · 1 评论 -
特征工程小案例
特征工程小案例¶Kaggle上有这样一个比赛:城市自行车共享系统使用状况。提供的数据为2年内按小时做的自行车租赁数据,其中训练集由每个月的前19天组成,测试集由20号之后的时间组成。In [29]:#先把数据读进来import pandas as pddata = pd.read_csv('kaggle_bike_competition_trai转载 2016-12-16 15:42:00 · 3129 阅读 · 0 评论 -
特征工程
特征工程数据集来源于Data Hackathon 3.x,所有的特征处理也只做最基本的参考,可自行尝试更多的特征工程工作,参考github里Feature engineering和Kaggle Titanic的案例。加载需要的库:In [1]:import pandas as pdimport numpy as np转载 2016-12-16 10:36:04 · 1247 阅读 · 0 评论 -
SVM理解
转:http://blog.csdn.net/viewcode/article/details/12840405SVM的文章介绍多如牛毛,很多介绍都非常详尽,而我却一点都不开窍,始终无法理解其中的奥秘。这次,我要用自己粗浅的语言,来撩开我与SVM之间的面纱。1. SVM是要解决什么问题?之前,冲上来就看SVM的应用,简介,最优化计算方法等。从没认真想转载 2016-05-27 00:14:30 · 423 阅读 · 0 评论 -
TF-IDF与余弦相似性的应用
转:http://www.ruanyifeng.com/blog/2013/03/tf-idf.html一个容易想到的思路,就是找到出现次数最多的词。如果某个词很重要,它应该在这篇文章中多次出现。于是,我们进行"词频"(Term Frequency,缩写为TF)统计。结果你肯定猜到了,出现次数最多的词是----"的"、"是"、"在"----这一类最常用的词。它们叫做"停转载 2016-04-14 21:20:30 · 444 阅读 · 0 评论 -
相似度算法
在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分 类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下。 为了方便下面的解释和举例,先设定我们要比较X个体和Y个体间的差异,它们都包含了N个维的特征,即X=(x1, x2, x转载 2016-03-28 21:10:31 · 690 阅读 · 0 评论 -
线性代数基础知识
第一节矩阵及其运算一、矩阵的概念 二、矩阵的运算 三、特殊的方阵单位矩阵 矩阵的转置 矩阵转置的运算性质 对角矩阵 三角矩阵 对称矩阵 四、矩阵的分块 第二节 正交矩阵一、向量的内积 单位向量 向量的正交 向量组 正交基 正交矩阵原创 2015-12-11 18:33:03 · 2416 阅读 · 0 评论 -
高数基础
导数定义函数y=f(x)在x0的某个邻域内有定义,则y的导数记为f'(x)f'(x)=limΔx→0 (Δy/Δx)=limΔx→0(f(x0+Δx)-f(x0)/Δx)导数存在的两个条件在y=f(x)在x0的某个邻域内有定义极限limΔx→0(f(x0+Δx)-f(x0)/Δx)存在几何意义导数的几何意义切线斜率导数的四则运算原创 2015-11-04 23:07:47 · 988 阅读 · 0 评论 -
EM 算法 实例
#coding:utf-8import mathimport copyimport numpy as npimport matplotlib.pyplot as pltisdebug = True#指定k个高斯分布参数,这里指定k=2。#注意2个高斯分布具有相同方差Sigma,均值分别为Mu1,Mu2。#共1000个数据#生成训练样本,输入6,40,20,2 #两类样本方差为6,#原创 2016-03-10 16:45:33 · 1755 阅读 · 1 评论 -
逻辑回归 算法 理论
极大似然估计 极大似然估计步骤 极大似然估计示例 示例引入逻辑回归 逻辑回归的由来 logistic函数(sigmoid函数) sigmoid函数求导 Sigmoid函数性质 极大似然估计参数 回顾梯度下降法 梯度上升法 批处理梯度上升法 随机梯度上升法 批处理梯度上升法 随机梯度上升法 随机梯度上升法结果分析原创 2016-01-23 12:30:54 · 657 阅读 · 0 评论 -
邻近 算法 实例
约会 40920 8.326976 0.953952 3 14488 7.153469 1.673904 2 26052 1.441871 0.805124 1 75136 13.147394 0.428964 1 38344 1.669788 0.134296 1 72993 10.14原创 2016-01-07 09:48:53 · 789 阅读 · 0 评论 -
邻近 算法 理论
K近邻模型由三个基本要素组成: 距离度量; k值的选择; 分类决策规则K近邻算法的核心在于找到实例点的邻居。 估算不同样本之间的相似性(SimilarityMeasurement)通常采用的方法就是计算样本间的“距离”(Distance),相似性度量方法有:欧氏距离、余弦夹角、曼哈顿距离、切比雪夫距离等。 欧氏距离 欧氏距离(EuclideanDistance)是最易于理解的一种距离计算原创 2016-01-05 19:31:32 · 1370 阅读 · 0 评论 -
贝叶斯 算法 理论
Bayes公式 先验概率和后验概率 贝叶斯文本分类示例 朴素贝叶斯分类决策 最小错误率决策 最小风险决策 最小风险贝叶斯决策—基本思想 最小风险贝叶斯决策—损失函数 最小风险贝叶斯决策—步骤 最小风险癌细胞实例原创 2016-01-13 19:58:07 · 613 阅读 · 0 评论 -
贝叶斯 算法 实例
#-*- coding: utf-8 -*- #添加中文注释from numpy import *#过滤网站的恶意留言#样本数据 def loadDataSet(): postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not',原创 2016-01-13 20:02:14 · 6773 阅读 · 0 评论 -
贝叶斯 算法 实例 scala
package mlia.bayesimport breeze.linalg._object Prep { def loadDataSet: (Array[Array[String]], Vector[Int]) = { val postingList = Array( Array("my", "dog", "has", "flea", "problems", "help", "原创 2016-01-13 21:03:05 · 911 阅读 · 0 评论 -
决策树 算法 理论
决策树分类 决策树模型呈树形结构,在分类中,表示基于特征对实例进行分类的过程。可以认为是if-then规则的集合。决策树组成部分 决策树是一种描述对样本实例(天气情况)进行分类(进行户外活动,取消户外活动)的树形结构。 决策树由结点(node)和有向边(directed edge)组成。结点分为内部结点和叶结点。内部结点表示一个特征属性(空气质量/天气/温度/风力),有向边表示对应的特征属原创 2016-01-19 20:57:03 · 734 阅读 · 0 评论 -
决策树 算法 实例
#-*- coding: utf-8 -*- '''Created on Oct 12, 2010Decision Tree Source Code for Machine Learning in Action Ch. 3@author: Peter Harrington'''from math import log import operator#训练数据集def crea原创 2016-01-20 20:32:38 · 1429 阅读 · 0 评论 -
决策树 算法 实例 scala
young myope no reduced no lenses young myope no normal soft young myope yes reduced no lenses young myope yes normal hard young hyper no reduced no lenses young原创 2016-01-20 20:34:50 · 2074 阅读 · 0 评论 -
线性回归 算法 实例
1.000000 0.067732 3.176513 1.000000 0.427810 3.816464 1.000000 0.995731 4.550095 1.000000 0.738336 4.256571 1.000000 0.981083 4.560815 1.000000 0.526171原创 2016-01-23 18:12:13 · 1066 阅读 · 0 评论 -
逻辑回归 算法 实例
horseColicTraining.txt 2.000000 1.000000 38.500000 66.000000 28.000000 3.000000 3.000000 0.000000 2.000000 5.000000 4.000000 4.000000 0.000000 0.000000 0.000000原创 2016-01-24 12:10:03 · 3089 阅读 · 1 评论 -
EM 算法 理论
EM算法的基本思想 极大似然估计–示例 极大似然估计步骤 极大似然估计求解 EM算法 EM算法步骤 EM算法推导 EM算法的高斯混合模型应用 高斯混合模型参数估计的EM算法 E步 M步 两个模型均值估计结果原创 2016-03-10 16:43:04 · 1227 阅读 · 1 评论 -
特征降维 实例
0_5.txt 00000000000000110000000000000000 00000000000011111100000000000000 00000000000111111110000000000000 00000000001111111111000000000000 00000000111111111111100000000000 00000001111原创 2016-03-10 15:56:50 · 1575 阅读 · 0 评论 -
特征降维 理论
特征值分解 奇异值分解SVD Python实现SVD 低阶近似 奇异值选取策略 相似度计算 基于物品相似度 基于物品相似度的推荐步骤 利用物品相似度预测评分 基于物品相似度的推荐结果 利用SVD降维 利用SVD降维前后结果比较 基于SVD的图像压缩–阈值处理 基于SVD的图像压缩原创 2016-03-10 15:45:47 · 1690 阅读 · 0 评论 -
数据降维 实例
secom.data 3030.93 2564 2187.7333 1411.1265 1.3602 100 97.6133 0.1242 1.5005 0.0162 -0.0034 0.9455 202.4396 0 7.9558 414.871 10.0433 0.968 192.3963 12.519 1.4026 -5419 2916.5 -4043.75 751 0.8955 1.77原创 2016-03-09 18:57:46 · 7992 阅读 · 1 评论 -
数据降维 理论
数据间的相关性 降维方法 PCA主成分分析 内积与投影 基向量 求向量在新基下的坐标 投影的矩阵表示 投影的矩阵表示 如何选择r个基向量? 分散程度度量:方差 协方差 协方差矩阵 基变换后的数据Y 优化目标:协方差矩阵对角化 对称矩阵(协方差矩阵)对角化 降维结果:低维空间投影 PCA思想 PCA流程 PCA实例 PCA对简单二维数据降维原创 2016-03-09 17:35:27 · 1479 阅读 · 2 评论 -
聚类算法 实例
testSet.txt 1.658985 4.285136 -3.453687 3.424321 4.838138 -1.151539 -5.379713 -3.362104 0.972564 2.924086 -3.567919 1.531611 0.450614 -3.302219 -3.487105 -1.724原创 2016-03-09 15:34:26 · 3886 阅读 · 1 评论 -
聚类算法 理论
相似度计算方法 欧氏距离 余弦夹角 基于划分的聚类——k-means算法 K-means算法示意图 K-means算法实例 K-means算法优缺点 kmeans相关的改进 二分K-means 误差平方和SSE:kmeans性能评价指标 可证明:使簇的SSE最小的质心是均值 二分Kmeans过程 层次聚类 层次聚类算法示意图原创 2016-03-09 12:27:57 · 1183 阅读 · 0 评论 -
集成算法 实例
占位原创 2016-02-29 14:52:10 · 712 阅读 · 0 评论 -
集成算法 理论
集成算法思想 boostrap抽样 bagging算法 boosting算法 Adaboost Adaboost自适应 Adaboost算法流程 举例 求解 迭代过程1:对于m=1 为何G1(x)阈值v取2.5? m=1 迭代过程2:对于m=2 为何G2(x)阈值v取8.5? m=2 迭代过程3:对于m=3 为何G3(x)阈值v取5.5? m=3原创 2016-02-29 14:50:49 · 761 阅读 · 0 评论