机器学习
VeeLe
知乎:相对静止 https://www.zhihu.com/column/c_1102570753626591232
展开
-
决策树学习笔记整理(转载)
转载自:决策树学习笔记整理更多参考内容: 1. 机器学习实战第三章——决策树(源码解析) 2. 决策树之ID3算法 3. 小结某些机器学习算法归纳偏置 4. 浅谈归纳偏置本文目的最近一段时间在Coursera上学习Data Analysis,里面有个assignment涉及到了决策树,所以参考了一些决策树方面的资料,现在将学习过程的笔记整理记录于此,作为备忘。 算法原理转载 2017-08-18 12:22:30 · 232 阅读 · 0 评论 -
数据分析复盘——基础之机器学习算法概览
看这篇:机器学习元知识原创 2017-09-14 13:44:04 · 3285 阅读 · 0 评论 -
jieba中文处理
jieba中文处理小结jieba分词:支持多种分词方式(精准、搜索引擎、和全模式。三者分出词的数量,应是递增)支持两种主题词提取算法(词频-逆向文档频率、TextRank)词性标注、并行分词收费库:ictclas 中科院spacy 号称工业水准分词库 (用了很多cython)by 寒小阳和拉丁语系不同,亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候,大部分情况下,转载 2017-08-29 22:24:39 · 891 阅读 · 2 评论 -
机器学习相关定义(更新完监督学习)
机器学习定义 part 1:机器学习:只通过数据建模,解释并预测事物。 人工智能:可以感知周围世界,并作出计划和决策的代理人数学模型:事物或者各属性之间关联的数学表示方程(组)拓扑逻辑描述人工智能涉及领域: ML、NLP、神经科学、逻辑理论、计算机视觉等等机器学习定义 part 2 监督学习1:监督学习: 通过带正确答案的数据,建立模型并预测事物回归:研究两种及以上变量之间的关系,拟合数据原创 2017-08-30 18:28:41 · 234 阅读 · 0 评论 -
自然语言处理之朴素贝叶斯
朴素贝叶斯¶by 寒小阳(hanxiaoyang.ml@gmail.com)1. 引言¶贝叶斯方法是一个历史悠久,有着坚实的理论基础的方法,同时处理很多问题时直接而又高效,很多高级自然语言处理模型也可以从它演化而来。因此,学习贝叶斯方法,是研究自然语言处理问题的一个非常好的切入口。2. 贝叶斯公式¶贝叶斯公式就一行:$P(Y|X)=\frac{P(X|Y)P(Y)}{P转载 2017-08-30 20:25:32 · 1992 阅读 · 0 评论 -
自然语言处理之朴素贝叶斯小结
此篇博客为自然语言处理之朴素贝叶斯的总结 更多详细信息参考超链接内容1.朴素贝叶斯=贝叶斯公式 + 条件独立假设2.朴素贝叶斯的效果好,尤其是在有大量语料的情况下。3.处理重复语句的三种方式4.处理未在训练集中覆盖的词语——平滑技术(赋予一个小概率,从而调低整体的概率)5.直接匹配关键词处理垃圾邮件,为何行不通。6.实际工程中的小技巧:取对数,把乘法变成加法.并预先把对应的概率求出来引入正常邮原创 2017-08-30 21:51:53 · 1332 阅读 · 0 评论 -
朴素贝叶斯+N-gram语言模型处理词序问题
原作者:寒小阳1. 引言:朴素贝叶斯的局限性¶我们知道朴素贝叶斯的局限性来源于其条件独立假设,它将文本看成是词袋子模型,不考虑词语之间的顺序信息,就会把“武松打死了老虎”与“老虎打死了武松”认作是一个意思。那么有没有一种方法提高其对词语顺序的识别能力呢?有,就是这里要提到的N-gram语言模型。2. N-gram语言模型是啥?¶2.1从假设性独立到联合概率链规则¶照抄我们垃圾邮转载 2017-08-30 23:48:38 · 1064 阅读 · 0 评论 -
《机器学习》学习笔记chapter1 绪论(占坑)
更多参考:百度搜索《机器学习》周志华 学习笔记 第一章绪论1.基本术语2.假设空间&&归纳偏好这里有个推理流程图科学推理的两大基本手段: 演绎推理:从公理到具体的“特化”过程 归纳:从具体到一般规律的“泛化”过程归纳学习概念学习布尔概念学习假设空间版本空间归纳偏好NFL定理算法优劣的判断3.机器学习发展历程1950s-70s:智能∝逻辑推理能力1970s-原创 2017-09-18 16:32:20 · 426 阅读 · 0 评论 -
自然语言处理之LDA主题模型(占坑)
占坑原创 2017-09-17 18:07:09 · 518 阅读 · 0 评论 -
《机器学习》学习笔记chapter2 模型选择(占坑)
1.经验误差与过拟合1.1 为什么会有过拟合经验误差也叫做训练误差,是学习器在训练过程中产生的误差。因为样本量不可能等于总体,所以学习器总不能完美地进行学习,如果学习器过于依赖训练的样本,而不能很好地预测其它的情况,这时则产生了过拟合。1.2如何评估过拟合答案是交叉验证。 交叉验证:主要用于建模应用中,例如PCR 、PLS 回归建模中。在给定的建模样本中,拿出大部分样本进行建模型,留小部分样本用刚原创 2017-09-20 21:37:57 · 577 阅读 · 0 评论 -
机器学习应用——sklearn自带数据集训练(支持向量机分类)
总地址:git hub :machine-learning-python 源地址:分類法/範例一: Recognizing hand-written digits1.代码#!/usr/bin/env python# -*- coding: utf-8 -*-# @Date : 2017-10-20 15:19:37# @Author : VeeL (505220533@qq.com原创 2017-10-20 19:59:41 · 2301 阅读 · 0 评论 -
机器学习应用——sklearn自带数据集训练(线性判别分析)
原文: 分類法/範例二: Normal and Shrinkage Linear Discriminant Analysis for classification"""总结:1.通过score方法拿到模型对当前特征数量的样本判断准确度2.对比有无shrinkage,部分方法才可以使用特征压缩http://scikit-learn.org/stable/modules/generated/s转载 2017-10-21 21:06:58 · 1524 阅读 · 0 评论 -
python数据分析应用之机器学习库(汇总)
1.sklearn应用sklearn自带数据集训练(支持向量机分类)sklearn自带数据集训练(线性判别分析)待续2.TensorFlow应用待续原创 2017-09-14 13:47:56 · 518 阅读 · 0 评论 -
机器学习实战笔记4(朴素贝叶斯)
前面介绍的kNN和决策树都给出了“该数据实例属于哪一类”这类问题的明确答案,而有时候的分类并不能给出明确的答案,本节讲解使用概率论进行分类的方法。1:简单概念描述概念比较简单,这里我摘抄自百度百科,很容易理解。朴素贝叶斯模型(NaiveBayesian classification)):—-Vmap=arg max P( Vj | a1,a2…an)Vj属于V集合其中Vmap是给定一个e转载 2017-08-27 10:15:15 · 229 阅读 · 0 评论 -
《机器学习实战》和Udacity的ML学习笔记之决策树
《机器学习实战》和 UdacityML学习笔记主要摘录自:决策树学习笔记整理1.基本概念和介绍算法原理:决策树(Decision Tree)是一种简单但是广泛使用的分类器。通过训练数据构建决策树,可以高效的对未知的数据进行分类。优点:1)模型可以读性好 (具有描述性,有助于人工分析) 2)效率高 (决策树只需要一次构建,反复使用) 3)计算复杂度不高(每一次预测的最大计算次数不超过决策树的深度)转载 2017-08-19 09:44:12 · 1015 阅读 · 0 评论 -
神经网络学习笔记
转载于:神经网络学习笔记神经网络sigmoid函数sigmoid函数是一种常见的挤压函数,其将较大范围的输入挤压到(0,1)区间内,其函数的表达式与形状如下图所示:该函数常被用于分类模型,因为其具有很好的一个特性f′(x)=f(x)(1−f(x))。这个函数也会被用于下面的神经网络模型中做激活函数。M-P神经元模型生物的神经网络系统中,最简单最基本的结构是神经元。每个神经元都是接受其他多个神经元传入转载 2017-08-21 10:14:13 · 468 阅读 · 0 评论 -
《机器学习实战》和Udacity的ML学习笔记之神经网络
1.感知器感知器即单层神经网络模型,也是支持向量机的基础; 基本模型为: 此处x为输入,w为权重,y为输出通过上式计算出最终的输出值 ,对应卡方函数解释如下:2.感知器表示布尔函数总的来说,就是通过两个输入x1,x2(取值只能是0、1),改变权重和阀值,使得加权结果和阀值比较结果输出符合布尔函数。详情见: 神经网络学习笔记3. 感知器学习过程当输出的结果和实际相反的时候,就说明加权结果达不到阀原创 2017-08-21 11:05:26 · 667 阅读 · 0 评论 -
《机器学习实战》和Udacity的ML学习笔记之线性回归
《机器学习实战》和 UdacityML学习笔记1.回归模型的选择在线性回归中,可以通过改变特征的数量测试模型的拟合程度。 各种特征数量的模型拟合情况 如图所示,当特征值k等于3的时候,相对更好地拟合了原数据,但又不糊像当K=8时那样夸张。(过度拟合)。其实在绘制误差和特征数量图的时候也可以发现,特征数量从3到8,误差机会没变,就时说引入的额外的特征根本没又起作用。所以可以得出结论,在训练过程中原创 2017-08-19 12:31:25 · 618 阅读 · 0 评论 -
《机器学习实战》和Udacity的ML学习笔记之 支持向量机&kernel
1. 支持向量机&支持向量支持向量机实质就是一个二分类的线性分类器,支持向量就是数据集中的一些点,这些点到分类线条的距离最短,用来求解分类线条模型。如果无法通过直线分类,就需要通过一些技巧,将数据投射到更高的维度。这些技巧就是核(kernel).2. 核函数(kernel method)核函数有很多种,只要符合Mercer Condition即可 一般SVM所使用核函数是:或者:k(x1,x2)=原创 2017-08-24 12:04:29 · 450 阅读 · 0 评论 -
《机器学习实战》和Udacity的ML学习笔记之 Ensemble Learning 集成学习
转载自:Ensemble learning(集成学习)这篇博问对继承学习的解释比较浅显易懂,主要知识点如下:集成学习的概念及其原理集成学习的步骤如何构建有差异的分类器如何对分类器进行整合为一个实例进行分类学习器为什么可以提高预测精度(降低偏差)关于最后一点,作者并没有从理论的角度进行分析,实质上涉及到子模型和模型偏差和方差的问题,具体到不同地算法对应的情况也不一样。具体而言,降低偏差的是集转载 2017-08-23 15:36:42 · 383 阅读 · 0 评论 -
PAC学习理论:机器学习那些事
转载自:PAC学习理论:机器学习那些事本文主要分析了:机器学习的本质,学习器由表示评价和优化组成的一些机器学习机制对应的表示、评价和优化方法过拟合的不同面孔PAC学习理论(判断学习器能否很好地学习) 参考翻译,有大量删除和修改,如有异议,请拜访原文。一定要看英文原文!!!。 本文转载于:深度译文:机器学习那些事 英文【原题】A Few U转载 2017-08-25 17:47:37 · 469 阅读 · 0 评论 -
【机器学习基础】理解为什么机器可以学习1——PAC学习模型
转自:http://www.jianshu.com/p/695a2dac26b6 引言自从下定决心认真学习机器学习理论开始,接触到很多基本问题,但其实都不是很理解,比如损失函数、风险函数、经验结构最小化、结构风险最小化、学习方法的泛化能力、VC维等,这些概念在学习中都纯属空泛的概念存在,我都不理解这些概念存在的意义。为什么会存在这样的问题呢?我自己想了一下,有几个原因:首先,很多转载 2017-08-25 18:11:38 · 876 阅读 · 0 评论 -
VC维的来龙去脉
原网站访问不了,所以图片都挂掉了,20180404转载:http://www.mamicode.com/info-detail-1148920.html原作者:vincentyao 原文链接: http://dataunion.org/14581.htmlVC维在机器学习领域是一个很基础的概念,它给诸多机器学习方法的可学习性提供了坚实的理论基础,但有...转载 2017-08-25 20:59:45 · 782 阅读 · 0 评论 -
《机器学习实战》和Udacity的ML学习笔记之 instance-based learning
0.基于实例的学习方法:KNN属于基于实例的方法,只是简单的把训练样例存储起来。从这些事例中泛化的工作中被推迟到必须分类新的实例时。每当遇到一个新的查询实例,它分析这个新实例与以前存储的实例的关系,并据此把一个目标函数值赋给新实例。 基于实例的方法还包括最近邻算法nearest neighbour和局部加权回归 locally weighted regression法。他们都假定实例可以表示为欧式空原创 2017-08-21 12:18:00 · 2482 阅读 · 0 评论 -
机器学习元知识
基本概念:机器学习:使用算法学习概率分布或者函数的过程(抽象版);从样本中按照一定的计算学习规则的过程(简化版);统计学习:基于数据构建概率模型的学习方法,是统计学、概率论、信息论、最优理论及计算科学等的交叉。 统计学习方法三要素:模型、策略、算法。深度学习:多层神经网络的学习方法模型要学习的概率分布或函数(假设空间)策略学习准则或者如何选择模型算法如何通过输入计算得到输出...原创 2017-10-22 23:21:31 · 736 阅读 · 0 评论