机器学习
Zoey29
Work hard, Have fun, Make history!
展开
-
Libsvm使用说明(一)
Libsvm 是一个简单的,易用的,高效的SVM分类和回归软件。它解决了 C-SVM 分类,nu-SVM 分类, one-class-SVM,epsilon-SVM 回归,nu-SVM 回归(的问题)。它也提供了一个自动的 C-SVM 分类的模型选择工具。本文档解释了 Libsvm 的用法。Libsvm 的获取:http://www.csie.ntu.edu.tw/~cjlin/libsvm翻译 2017-05-11 17:01:38 · 2390 阅读 · 0 评论 -
Python机器学习及实践学习笔记1
简介机器学习综述机器学习隶属于人工智能研究与应用的一个分支。“图灵测试”(Turing Test),用来判断一台计算机是否达到具备人工智能的标准。 大概描述:“如果通过问答这种方式,我们已经无法区分对话那端到底是机器还是人类,那么就可以说这样的机器已经具备了人工智能。”Tom Mitchell’s Definition A program can be said to learn...原创 2018-05-28 10:31:23 · 554 阅读 · 0 评论 -
Python机器学习及实践学习笔记2
基础监督学习经典模型监督学习任务的基本架构和流程: 1.准备训练数据; 2.抽取所需特征,形成用于训练特征向量(Feature Vectors); 3.训练预测模型(Predictive Model); 4.抽取测试数据特征,得到用于测试的特征向量; 5.使用预测模型对待测试特征向量进行预测并得到结果(Label/Target)。分类学习 1.二分类(Binary Clas...原创 2018-06-06 15:15:27 · 348 阅读 · 0 评论 -
Python机器学习及实践学习笔记3
进阶这部分简单介绍了如何通过抽取或筛选数据特征、优化模型配置,进一步提升经典模型的性能表现。已存的高效模型和程序库: 用于自然语言处理的NLTK程序包; 词向量技术Word2Vec; 能提供强大预测能力的XGBoost模型; Google发布的用于深度学习的Tensorflow框架等。模型使用技巧提升模型性能的方式: 1.预处理数据 2.控制参数训练 3.优化模型...原创 2018-06-27 14:26:39 · 295 阅读 · 0 评论 -
决策树学习基本算法
输入训练集D={(x1,y1),(x2,y2),…(xm,ym)};属性集A={a1,a2,…ad}.过程:函数TreeGenerate(D,A)生成结点node;if D中样本全属于同一类别C:将node标记为C类叶结点;递归返回;end ifif A=空集 或 D中样本在A上取值相同:将node标记为D中样本数(当前结点)最多的类(成为叶结点);递归返回;end if...原创 2018-09-27 14:16:23 · 3265 阅读 · 0 评论 -
Octave基础
向量分号:分割行空格或逗号:分割列创建与访问行向量空格或逗号分割>> v = [1 2 3] % 等效:v = [1, 2, 3]v = 1 2 3 >> v(2) % 只有一行,所以指定就是列ans = 2列向量分号分割>> v = [1; 2; 3]v = 1 2 3>>...转载 2018-09-27 18:52:08 · 285 阅读 · 0 评论 -
统计学习三要素个人理解
模型模型就是所要学习的函数或分布,用以表征输出与输入之间的联系。策略按照什么准则(损失函数,风险函数,经验风险函数=>结构风险函数)选择最好的模型。算法最优化问题求解方法,如何使损失最小进而使模型最好。...原创 2018-10-12 15:31:23 · 720 阅读 · 0 评论 -
对先验后验概率的一点理解
先验概率是由某些起因推导出结果发生的概率,如用在全概率公式中。利用过去历史资料计算得到的先验概率,称为客观先验概率;当历史资料无从取得或资料不完全时,凭人们的主观经验来判断而得到的先验概率,称为主观先验概率。注:全概率公式就是已知第一阶段求第二阶段,比如第一阶段分A B C三种(完备事件组),然后A B C中均有D发生的概率,D的概率P(D)=P(A)*P(D|A)+P(B)*P(D|B)...原创 2018-09-28 09:27:29 · 508 阅读 · 0 评论 -
如何得到一个较好的机器学习系统
牢记“It’s not who has the best algorithm that wins.It’s who has the most data.”要想得到高效的系统:首先,特征一定要选好;其次,模型复杂度要合适。这一点可以降低偏差(bias),即防止欠拟合。保证 J train(θ)比较小。最后,训练数据要充足。这一点可降低方差(variance),防止过拟合。保证J test...原创 2018-10-13 10:31:41 · 499 阅读 · 0 评论 -
scikit-learn fit_transform() vs. transform()
CountVectorizer- bag of words tool fit_transform() functions: 1) Fits the model & learns the vocabulary 2) Transforms training data into feature vectors. transform() In machine learning ,you...原创 2018-05-22 15:16:30 · 445 阅读 · 0 评论 -
回归标准系数
对于非标准化的系数,数据在未标准化之前是不能直接用来直接比较“重要性大小”的。因为因子本身数据存在差异,看因子重要程度要用标准化系数。标准化的回归系数是指将数据标准化(减均值除方差)后计算得到的回归系数。因为数据进行了标准化,因此就取消了量纲的影响。假设因变量为y,自变量为x,标准回归系数为a。那么在解释时就要说,当x变化1个标准差是,y变化a个标准差。标准化后的回归系数在不同自变量之...原创 2018-05-15 10:15:07 · 10100 阅读 · 0 评论 -
数据清洗
基本概念数据清洗(Data cleaning): 对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。 因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不...转载 2018-05-10 14:55:27 · 2498 阅读 · 0 评论 -
Libsvm使用说明(二)
库的使用这些函数和结构在头文件 ‘svm.h’ 中已声明。你需要在你的 C/C++ 源文件中用 #include “svm.h” 然后用 ‘svm.cpp’ 连接你的程序。你可以参见‘svm-train.c’和‘svm-predict.c’为例,它们展示了如何使用。 我们定义了 LIBSVM_VERSION 并在‘svm.h’中用‘extern int libsvm_version;’语句翻译 2017-05-12 10:18:35 · 488 阅读 · 0 评论 -
Libsvm使用说明(三)
Function: double svm_predict(const struct svm_model *model, const struct svm_node *x);这个函数为一个测试向量x在提供的一个模式下做分类或回归。 对于分类模式,返回的是x被预测的类。 对于回归模式,返回的是用该模式计算x的函数值。 对于 one-cl翻译 2017-05-12 10:38:24 · 635 阅读 · 0 评论 -
交叉验证
交叉验证(Cross validation),有时亦称循环估计, 是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析, 而其它子集则用来做后续对此分析的确认及验证。 一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证是一种评估统计分析、机器学习算法对独立于训练数据的数据集的泛化能力(generalize), 交叉验证一般要尽量满足: 1)训练集的比转载 2017-06-21 11:20:36 · 529 阅读 · 0 评论 -
回归任务偏差与方差
偏差与方差分解“偏差-方差分解”是解释学习算法泛化性能的一种重要工具。 它试图对学习算法的期望泛化错误率进行拆解。 以回归任务为例,E(f;D)泛化误差可以分解为偏差、方差、噪声之和。 偏差,度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力; 方差,度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响; 噪声,表达了在当原创 2017-09-21 10:37:40 · 1319 阅读 · 0 评论 -
A basic walkthrough of xgboost python package
This document gives a basic walkthrough of xgboost python package. 这份文档是xgboost python包的一个简单使用参考。List of other Helpful LinksPython walkthrough code collections Python API ReferenceInstall XG翻译 2018-01-22 10:28:35 · 548 阅读 · 0 评论 -
独热编码
独热编码 one-hot code, 即有多少个状态就有多少比特,且只有一个比特为1,其他全为0的一种码制。在机器学习中对于离散型的分类型的数据,需要对其进行数字化比如说性别这一属性,只能有男性或者女性两种,一种简单的方式就是男性为0,女性为1,使用简单的序列对分类值进行表示后,进行模型训练时可能会产生一个问题:特征因为数值不同影响模型的训练效果,在模型训练的过程中不同的值使得同一特征在样本中的权原创 2018-01-23 16:57:48 · 1545 阅读 · 0 评论 -
ID3与C4.5和CART决策树算法
决策树学习算法最著名的代表是ID3、C4.5和CART,三种决策树算法有不同的特征选择方案:ID3用信息增益,C4.5用信息增益率,CART用基尼(gini)系数。 ID3算法是决策树的一个经典的构造算法,在一段时期内曾是同类研究工作的比较对象,但通过近些年国内外学者的研究,ID3算法存在的问题如下: (1)信息增益的计算依赖于特征数目较多的特征,而属性取值最多的属性并不一定最优。 (2)I原创 2018-01-12 16:07:04 · 835 阅读 · 0 评论 -
批梯度下降法与随机梯度下降法
选定线性回归模型后,确定参数 θ后就可以将模型用来预测。 目标函数 J(θ) 最小时 θ 才能确定。因此问题归结为求极小值问题,使用梯度下降法。 梯度下降法最大的问题是求得的有可能是全局极小值,这与初始点选取有关。 梯度下降法流程: 1)首先对 θ 赋值,可以是随机的,也可以让 θ 是一个全零的向量。 2)改变 θ 的值,使得 J(θ) 按梯度下降的方向进行减少。 梯度方向由 J(θ) 对原创 2018-01-18 10:12:16 · 405 阅读 · 0 评论 -
K均值算法
K均值算法,即K-means,主要分为两步:确定簇标记移动簇中心输入:K(簇的个数),训练集{x1,x2,…xm}首先,初始化K个簇中心点 μ1,μ2,…μK;Repeat{确定各样本点簇标记for i=1 to mxi的簇标记:= 与xi距离最近的簇中心的标记根据当前簇标记移动簇中心点for k=1 to Kμk:=簇k中样本点的平均向量}...原创 2018-10-18 09:55:32 · 1198 阅读 · 0 评论