人工智能之机器学习篇
文章平均质量分 86
如果你是一个机器学习的爱好者,并且乐意于开始了解机器学习领域的相关知识,我希望,你可以在我的文章中找到有用的资料。
幸运六叶草
个人公众号:“Python技术博文”;关注人工智能,热衷学习IT新技术。
展开
-
2021 AI年度报告-stateof.ai出品【2】
承接上一篇的介绍一、简介stateof.ai 出品的2021 AI年度报告,其中包含了五点重要的总结:1:Research:2021年的AI重要科研进展回顾2:Talent:AI人才的市场供需情况3:Industry:AI在商业上的不同尝试4:Politics:AI在政策上、经济上的影响5:Predictions:接下来一年的AI进展预测这份188页的PPT报告由知名风投公司Air Street Capital的合伙人Nathan Benaich和投资了100+初创公司的天使投资人Ian H翻译 2021-11-02 20:28:19 · 712 阅读 · 0 评论 -
2021 AI年度报告-stateof.ai出品【1】
一、简介stateof.ai 出品的2021 AI年度报告,其中包含了五点重要的总结:1:Research:2021年的AI重要科研进展回顾2:Talent:AI人才的市场供需情况3:Industry:AI在商业上的不同尝试4:Politics:AI在政策上、经济上的影响5:Predictions:接下来一年的AI进展预测这份188页的PPT报告由知名风投公司Air Street Capital的合伙人Nathan Benaich和投资了100+初创公司的天使投资人Ian Hogarth联合撰翻译 2021-11-02 15:17:21 · 1228 阅读 · 0 评论 -
Radical Empiricism and Machine Learning Research
论文链接:https://ftp.cs.ucla.edu/pub/stat_ser/r502.pdf今天要阅读的论文是2021年5月份的一篇,作者是图灵奖获得者、著名计算机科学家和哲学家Judea Pearl。本文从便利性、透明性和可解释性三个维度对数据科学中的“数据拟合”与“数据解释”方法进行了对比。“数据拟合”是由一种信念驱动的,即理性决策的秘密在于数据本身。相反,数据解释学派认为数据不是知识的唯一来源,而是解释现实的辅助手段,“现实”代表产生数据的过程。“我主张通过拟合和解...原创 2021-07-23 15:11:41 · 827 阅读 · 0 评论 -
特征工程-Feature Selection for High-Dimensional Data: A Fast Correlation-Based Filter Solution
Feature Selection for High-Dimensional Data: A Fast Correlation-Based Filter Solution2003Lei Yu leiyu@asu.eduHuan Liu hliu@asu.eduDepartment of Computer Science & Engineering, Arizona State University, Tempe, AZ 85287-5406, USAAbstract特征选择作原创 2021-03-05 15:33:50 · 2042 阅读 · 1 评论 -
聚类算法手册--原理+评估方法
聚类算法 在无监督学习(unsupervised learning)中,训练样本的标记信息是未知的。 无监督学习的目标:通过对无标记训练样本的学习来揭露数据的内在性质以及规律。 一个经典的无监督学习任务:寻找数据的最佳表达(representation)。常见的有: 低维表达:试图将数据(位于高维空间)中的信息尽可能压缩在一个较低维空间中。 稀疏表达:将数据嵌入到大多数项为零的一个表达中。该策略通常需要进行维度扩张。 独立表达:使数据的各个原创 2021-02-25 16:33:05 · 2554 阅读 · 0 评论 -
时间序列模型第一篇ARIMA
时间序列时间序列数据时间序列是按时间顺序排列的、随时间变化且相互关联的数据序列。构成要素时间序列可以分为长期趋势(trend)、季节变动(seasonal)、循环变动(cycling)和随机波动(irregular)四个部分。长期趋势( T )现象在较长时期内受某种根本性因素作用而形成的总的变动趋势季节变动( S )现象在一年内随着季节的变化而发生的有规律的周期性变动循环变动( C )现象以若干年为周期所呈现出的波浪起伏形态的有规律的变动不规则变动(I )是一种无规律可循的变动,包括严原创 2020-12-12 20:45:29 · 7601 阅读 · 2 评论 -
树家族算法梳理
树家族第一篇树家谱决策树决策树模型可以看做是if-else指令集合,通过对特征空间的划分来完成分类或者回归任务。如上图,是树模型的经典案例。根据天气、温度和风强度决策是否打网球。其过程就像是做了一系列的”if-else"判断。即基于数据,让算法学习这些’if-else‘规则。树模型家族简史单棵树单棵树三大知名算法:ID3、C4.5、CART1975年,由J.R.Quinlan提出ID3算法,这是首个知名的决策树算法。相对于耗时的人工规则,ID3用极其简单优美的方式从数据中学习出这些【if原创 2020-12-12 18:39:22 · 457 阅读 · 0 评论 -
循环神经网络RNN【小记一】
什么是RNN 循环神经网络(Recurrent Neural Networks, RNN)已经被成功的应用于音乐生成、对话生成、图像生成、语音合成和分子设计。不同于传统的前向反馈神经网络(Feedforward Neural Networks, FNNS),RNNS引入了定向循环,可以处理输入之间前后关联的问题。定向循环示图如下: ...原创 2020-01-20 10:09:05 · 934 阅读 · 0 评论 -
网络模型中Inception的作用与结构全解析
一 论文下载 本文涉及到的网络模型的相关论文以及下载地址: [v1] Going Deeper with Convolutions, 6.67% test error http://arxiv.org/abs/1409.4842 [v2] Batch Normalization: Accelerating Deep Network Training by Reducing Internal ...转载 2020-01-10 14:53:32 · 878 阅读 · 0 评论 -
卷积神经网络CNN的可视化
通常我们认为深度学习模型是“黑盒”的,即模型学到的表示很难用人类可以理解的方式来提取和呈现。然而对于卷积神经网络来说却不是这样的。CNN学到的表示非常适合可视化,因为CNN本身就是视觉概念的表示。CNN可视化和解释:【本文给出3个层面的可视化】1)可视化卷积神经网络的中间输出(中间激活)有助于理解卷积网络神经连续的层如何对输入进行变换,也有助于初步了解卷积神经网络每个过滤器的含义。...原创 2019-12-26 14:23:03 · 2274 阅读 · 0 评论 -
CNN-[deep learning with python]学习笔记
在学习笔记P20-CNN中已经介绍了CNN的一些知识,这篇主要是补充和更深程度的梳理:上文中提到"从效果上来看,卷积层相比于全连接层减少了参数、实现了参数共享。”即,本质上卷积和全连接的区别是,全连接层从输入特征空间中学习的是全局模式,而卷积层学习到的是局部模式,对于图像来说,学到的就是输入图像的二维小窗口(filter)中发现的模式。这个重要的特性使卷积神经网络具有如下两个性质:...原创 2019-12-19 15:28:00 · 453 阅读 · 0 评论 -
时间序列ARIMA模型做股票预测
博主微信公众号:“Python技术博文”数据集来源于yahoo财经股票数据。下载方式:import pandas_datareader.data as web## 使用 pandas-datareader 来读取股票数据start = datetime.datetime(2010, 1, 1)end = datetime.datetime(2017,12,31)pri...原创 2019-11-08 15:50:13 · 8852 阅读 · 1 评论 -
PageRank
PageRank,网页排名,又称网页级别、Google左侧排名或佩奇排名,是一种由[1] 根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创办人拉里·佩奇(Larry Page)之姓来命名。Google用它来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。Google的创始人拉里·佩奇和谢尔盖·布林于1998年在斯坦福大学发明了转载 2017-05-16 22:40:06 · 1076 阅读 · 0 评论 -
数据挖掘十大经典算法--CART: 分类与回归树
一、决策树的类型 在数据挖掘中,决策树主要有两种类型:分类树 的输出是样本的类标。回归树 的输出是一个实数 (例如房子的价格,病人呆在医院的时间等)。术语分类和回归树 (CART) 包含了上述两种决策树, 最先由Breiman 等提出.分类树和回归树有些共同点和不同点—例如处理在何处分裂的问题。分类回归树(CART,Classification And Regressi原创 2014-05-02 13:15:16 · 70138 阅读 · 7 评论 -
朴素贝叶斯分类器
贝叶斯定理贝叶斯定理解决了现实生活里经常遇到的问题:已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(A|B)的情况下如何求得P(B|A)。这里先解释什么是条件概率: 表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率。其基本求解公式为:。 贝叶斯定理之所以有用,是因为我们在生活中经常遇到这种情况:我们可以很容易直原创 2014-04-03 19:26:27 · 5547 阅读 · 0 评论 -
数据挖掘十大算法--K近邻算法
k-近邻算法是基于实例的学习方法中最基本的,先介绍基于实例学习的相关概念。一、基于实例的学习。1、已知一系列的训练样例,很多学习方法为目标函数建立起明确的一般化描述;但与此不同,基于实例的学习方法只是简单地把训练样例存储起来。从这些实例中泛化的工作被推迟到必须分类新的实例时。每当学习器遇到一个新的查询实例,它分析这个新实例与以前存储的实例的关系,并据此把一个目标函数值赋给新实例。2原创 2014-04-17 17:33:01 · 21931 阅读 · 5 评论 -
数据挖掘算法学习(八)Adaboost算法
Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。原创 2014-10-24 11:53:09 · 9874 阅读 · 0 评论 -
数据挖掘十大算法----EM算法(最大期望算法)
概念在统计计算中,最大期望(EM)算法是在概率(probabilistic)模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量(Latent Variable)。最大期望经常用在机器学习和计算机视觉的数据聚类(Data Clustering)领域。可以有一些比较形象的比喻说法把这个算法讲清楚。比如说食堂的大师傅炒了一份菜,要等分成两份给两个人吃,原创 2014-04-14 20:48:44 · 24036 阅读 · 3 评论 -
数据挖掘十大算法--Apriori算法
一、Apriori 算法概述Apriori 算法是一种最有影响力的挖掘布尔关联规则的频繁项集的 算法,它是由Rakesh Agrawal 和RamakrishnanSkrikant 提出的。它使用一种称作逐层搜索的迭代方法,k- 项集用于探索(k+1)- 项集。首先,找出频繁 1- 项集的集合。该集合记作L1。L1 用于找频繁2- 项集的集合 L2,而L2 用于找L2,如此下去,直到不能找到原创 2014-04-30 20:32:27 · 28405 阅读 · 2 评论 -
数据挖掘学习笔记--决策树C4.5
在网上和教材上也看了有很多数据挖掘方面的很多知识,自己也学习很多,就准备把自己学习和别人分享的结合去总结下,以备以后自己回头看,看别人总还是比不上自己写点,及时有些不懂或者是没有必要。定义:分类树(决策树)是一种十分常用的分类方法。他是一种监管学习,所谓监管学习说白了很简单,就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出原创 2014-03-23 11:56:20 · 6317 阅读 · 0 评论 -
数据挖掘十大算法--K-均值聚类算法
一、相异度计算 在正式讨论聚类前,我们要先弄清楚一个问题:如何定量计算两个可比较元素间的相异度。用通俗的话说,相异度就是两个东西差别有多大,例如人类与章鱼的相异度明显大于人类与黑猩猩的相异度,这是能我们直观感受到的。但是,计算机没有这种直观感受能力,我们必须对相异度在数学上进行定量定义。 设 ,其中X,Y是两个元素项,各自具有n个可度量特征属性,那么X和Y的相异度定义为: ,原创 2014-04-24 12:16:06 · 9042 阅读 · 6 评论 -
机器学习与数据挖掘-支持向量机(SVM)(一)
最近在看斯坦福大学的机器学习的公开课,原创 2014-05-02 21:32:49 · 9402 阅读 · 0 评论 -
支持向量机(SVM)(二)-- 拉格朗日对偶(Lagrange duality)
简介:1、在之前我们把要寻找最优的分割超平面的问题转化为带有一系列不等式约束的优化问题。这个最优化问题被称作原问题。我们不会直接解它,而是把它转化为对偶问题进行解决。2、为了使问题变得易于处理,我们的方法是把目标函数和约束全部融入一个新的函数,为了使问题变得易于处理,我们的方法是把目标函数和约束全部融入一个新的函数,即拉格朗日函数,再通过这个函数来寻找最优点。即拉格朗日函数,再通过这个函数原创 2014-05-07 16:31:07 · 15447 阅读 · 0 评论 -
支持向量机(SVM)(三)-- 最优间隔分类器(optimal margin classifier)
在之前为了寻找最有分类器,我们提出了如下优化问题:在这里我们可以把约束条件改写成如下:首先我们看下面的图示:很显然我们可以看出实线是最大间隔超平面,假设×号的是正例,圆圈的是负例。在虚线上的点和在实线上面的两个一共这三个点称作支持向量。现在我们结合KKT条件分析下这个图。我们从式子和式子可以看出如果那么,这个也就说明时,w处于可行域的边界上,这时才是起作用的约束原创 2014-05-08 18:00:04 · 3441 阅读 · 0 评论 -
支持向量机(四)-- 核函数
一、核函数的引入问题1:SVM显然是线性分类器,但数据如果根本就线性不可分怎么办?解决方案1:数据在原始空间(称为输入空间)线性不可分,但是映射到高维空间(称为特征空间)后很可能就线性可分了。问题2:映射到高维空间同时带来一个问题:在高维空间上求解一个带约束的优化问题显然比在低维空间上计算量要大得多,这就是所谓的“维数灾难”。解决方案2:于是就引入了“核原创 2014-05-10 20:58:45 · 6127 阅读 · 1 评论 -
支持向量机(SVM)(五)-- SMO算法详解
一、我们先回顾下SVM问题。A、线性可分问题1、SVM基本原理:SVM使用一种非线性映射,把原训练 数据映射到较高的维。在新的维上,搜索最佳分离超平面,两个类的数据总可以被超平面分开。2、问题的提出:3、如何选取最优的划分直线f(x)呢?4、求解:凸二次规划建立拉格朗日函数:求偏导数:原创 2014-05-21 20:41:43 · 14006 阅读 · 2 评论 -
有监督学习和无监督学习的区别
机器学习的常用方法,主要分为有监督学习(supervised learning)和无监督学习(unsupervised learning)。监督学习,就是人们常说的分类,通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的,也就具有转载 2016-08-16 20:45:58 · 46796 阅读 · 4 评论 -
决策树学习笔记整理
本文目的最近一段时间在Coursera上学习Data Analysis,里面有个assignment涉及到了决策树,所以参考了一些决策树方面的资料,现在将学习过程的笔记整理记录于此,作为备忘。 算法原理决策树(Decision Tree)是一种简单但是广泛使用的分类器。通过训练数据构建决策树,可以高效的对未知的数据进行分类。决策数有两大优点:1)决策树模型可以读性好转载 2016-08-24 13:08:38 · 1059 阅读 · 0 评论 -
支持向量机:Duality
在之前关于 support vector 的推导中,我们提到了 dual ,这里再来补充一点相关的知识。这套理论不仅适用于 SVM 的优化问题,而是对于所有带约束的优化问题都适用的,是优化理论中的一个重要部分。简单来说,对于任意一个带约束的优化都可以写成这样的形式:mins.t.f0(x)fi(x)≤0,i=1,…,mhi(x)=0,i=1,…,p形式统一能够简化推导过转载 2017-05-07 21:57:48 · 581 阅读 · 0 评论 -
使用sklearn做单机特征工程
1 特征工程是什么? 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面: 特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包括数据预处理,特征选转载 2017-03-19 21:52:54 · 882 阅读 · 0 评论 -
EM算法学习笔记与三硬币模型推导
最近接触了pLSA模型,由于该模型中引入了主题作为隐变量,所以需要使用期望最大化(Expectation Maximization)算法求解。 本文简述了以下内容: 为什么需要EM算法 EM算法的推导与流程 EM算法的收敛性定理 使用EM算法求解三硬币模型为什么需要EM算法 数理统计转载 2017-03-21 12:45:04 · 5196 阅读 · 1 评论 -
scikit-learn中PCA的使用方法
1、函数原型及参数说明[python] view plain copysklearn.decomposition.PCA(n_components=None, copy=True, whiten=False) 参数说明:n_components: 意义:PCA算法中所要保留的主成分个数n,也即保留下来的转载 2017-03-21 16:27:52 · 7139 阅读 · 0 评论 -
K-means聚类算法
K-means聚类算法 K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中,那本书比较注重应用。看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想。 聚类属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类。而聚转载 2017-03-23 20:55:37 · 892 阅读 · 1 评论 -
线性回归--正规方程Normal Equation
正规方程 Normal Equation在线性回归中,为了求得参数的最优值,一般采用梯度下降和本文将要介绍的正规方程(normal equation)。相比较梯度下降采用多次迭代逼近的方式,normal equation采用矩阵运算可以直接求解出参数。先介绍下什么是normal equation,假设一个数据集X有m个样本,n个特征。则假设函数为: ,数据集X的特征向量表示为:原创 2017-04-01 16:54:43 · 4255 阅读 · 0 评论