自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 统计学习方法-004_第二章聚类分析_2.1聚类分析的概念

2.1 聚类分析的概念2.1.1 聚类分析的基本思想假设原理(1)基本思想(2)特征量的类型(3)方法的有效性特征选取的不同对分类结果的影响:

2020-10-18 11:09:29 307

原创 统计学习方法-003_绪论1.2+1.3+1.4

1.2 特征矢量和特征空间(1)特征矢量(2)特征空间(3)随机变量1.3 随机矢量的描述(1)随机矢量的分布函数(2)联合概率密度函数(3)类概率密度函数(4)随机矢量的数字特征① 均值矢量② 条件期望③ 协方差矩阵④ 自相关矩阵⑤ 相关系数⑥ 协方差矩阵的非负定性(5)随机变量、随机矢量之间的统计关系不相关:...

2020-10-13 16:54:33 244

原创 统计学习方法-002_绪论1.1

《统计学习方法》-学习视频:B站国科大视频一、概述(1)模式(Pattern)概念:表示形式:(2)模式识别(Pattern Recognition)概念:应用:(3)模式识别的发展前景二、模式识别系统原理框图三、模式识别系统流程四、模式识别过程:五、模式识别的核心问题1、特征选择与提取(1)模式采集(2)预处理(3)特征选择/提取2、学习训练3、分类识别六、分类七、模式识别实例八、模式识别的基本方法九、模式识别的主流技术统

2020-10-12 21:00:29 267

原创 机器学习015_分类问题 / logistic回归(草稿)

一、概要接下来,要讨论的是当预测值y是一个离散值时的分类问题要开发的logistic回归算法。逻辑回归解决离散问题;线性回归解决连续问题。分类问题有二分类和多分类,我们这里先学习二分类问题。二、logistic回归算法对于离散分类问题,使用线性回归显然不是好的方法,由上图,若使用线性回归,那么预测值很可能是>1或者<0的情况。逻辑回归算法则会使得y值介于0~1。如果使用线性回归算法,分类器的输出值h(x)可能范围很广。那么,要使得分类器的输出值介于0~1之间,需要对h(x)

2020-10-12 19:46:17 157

原创 python-005_数据可视化库Seaborn

1、Seaborn 简介Seaborn 是基于 Python 且非常受欢迎的图形可视化库,在 Matplotlib 的基础上,进行了更高级的封装,使得作图更加方便快捷。即便是没有什么基础的人,也能通过极简的代码,做出具有分析价值而又十分美观的图形。Seaborn 可以实现 Python 环境下的绝大部分探索性分析的任务,图形化的表达帮助你对数据进行分析,而且对 Python 的其他库(比如 Numpy/Pandas/Scipy)有很好的支持。可以使用pandas读取文件中的数组载入数组,再导入

2020-08-17 18:29:00 246

原创 python-004_pandas.read_csv函数读取文件

1、pandas简介pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。通过带有标签的列和索引,Pandas 使我们可以以一种所有人都能理解的方式来处理数据。从诸如 csv 类型的文件中导入数据。我们可以用它快速地对数据进行复杂的转换和过滤等操作

2020-08-17 16:01:35 834

原创 python-003_numpy.loadtext函数读取文件

python读取TXT文件,可以自己编写代码读取TXT文件数据并载入数组中;或者调用一些已有的函数来实现此功能。本文介绍调用函数的方法。loadtxt函数,主要用法:numpy.loadtxt(fname, dtype=, comments=’#’, delimiter=None, converters=None, skiprows=0, usecols=None, unpack=False, ndmin=0)参数解析:(1)fname:文件名,最基本的参数a = np.loadtxt(

2020-08-17 14:56:34 2644

原创 python-002_字符编码问题

1、计算机中的字符编码问题最早是ASCII编码,美国人发明,所以只把127个字符进行编码,只需要一个字节,字符A的编码是65,字符z编码是122。中文字符显然一个字节编码不够,且为了不和ASCII冲突,制定GB2312编码,至少需要两个字节进行编码。那么,世界上各种语言有各种语言的编码,那么在多语言混合的文本中,显示会有乱码。所以,出现了Unicode编码,通常使用两个字节(生僻字符会用到四个字节)编码所有的语言字符。但是在大多是英字符的文本中,这种编码在存储和传输上非常不划算。之后出现了U

2020-08-16 19:11:23 215

原创 统计学习方法-001_感知机算法及python代码实现

学习参考b站视频:https://www.bilibili.com/video/BV1W7411N7Ag?p=35我的笔记1、背景:通过学习第二章-感知机模型,由简入深,逐渐了解统计学习的三大要素和机器学习的基础。熟悉整个流程。2、统计学习三大要素:模型、策略、算法。3、具体到感知机的三大要素:模型:如下图所示的函数模型策略:找到一个损失函数,并将损失函数最小化。感知机的损失函数:算法:随机 梯度下降算法。这里的随机指的是,在原损失函数中,要求求出所有的误分点

2020-08-16 10:05:28 408

原创 机器学习014_Python中的向量化编程

1、矢量化/向量化我们推荐使用向量化的形式进行编码,尽可能避免使用for循环而采用向量化形式。对于机器学习领域广为使用的python语言而言,没有内置对于矩阵、向量的支持,毕竟python是一门通用语言。但是,借助一些第三方库(数值线性代数库)如下面的Numpy,我们也可以很容易的处理向量数值运算。2、NumpyNumpy是Numerical Python的缩写,是Python生态系统中高性能科学计算和数据分析所需的基础软件包。 它是几乎所有高级工具(如Pandas和scikit-learn)的基础

2020-08-15 16:58:14 504

原创 Git安装及配置

1、Git下载安装下载并双击安装;2、注册github账号3、通过Git生成SSH KeyWindows下打开Git Bash,创建SSH Key,输入:ssh-keygen -t rsa -C "your_email@example.com"默认会在相应路径下(/your_home_path)生成id_rsa和id_rsa.pub两个文件。打开C:\Users\Administrator.ssh目录,“id_rsa.pub”文件内容就是公钥4 、 将ssh key公匙添加到GitHub

2020-08-10 18:51:21 184

原创 python-001_环境安装

1、背景吴恩达老师视频里推荐使用Octave,但是现在来看,稍显过时,我们将学习使用Python来实现该课程的编程作业。2、安装Python环境Windows下Python环境的安装,包括Anaconda和Pycharm。1)Anacanda这里推荐安装Anacanda。Anaconda是一个用于科学计算的Python发行版,支持 Linux, Mac, Windows系统,提供了包管理与环境管理的功能,可以很方便地解决多版本Python并存、切换以及各种第三方包安装问题。Anacanda下载:

2020-08-10 14:04:00 166

原创 机器学习013_正规方程在矩阵不可逆情况下的解决方法

1、矩阵不可逆矩阵不可逆的情况是很少的,使用Octave时,使用pinv函数可以计算出矩阵不可逆时的解,而函数inv不可以。2、原因及解决方法当特征中存在线性相关的特征时,那么组成的特征矩阵就是不可逆的。此时应删去其中的某个特征。当特征个数远远多于训练样本集个数时(约束条件不够),可以删去一些不重要的特种工或者进行正规化处理(后面再学习到)。...

2020-08-08 11:47:49 3018

原创 机器学习012_正规方程(区别于迭代方法的直接解法)

1、概要这里我们将学习正规方程,对于某些线性回归问题,它可以给我们更好的方法来得到求得参数theta的最优值。2、简单对比梯度下降法和正规方程梯度下降法是通过迭代的方法,逐渐收敛到代价函数的最小值处即全局最优解处,来获得参数theta的最优解。而正规方程是一个可以解析theta的方法,即可以一步直接得到theta的最优解。3、对正规方程的直观感受举例:一个简单的代价函数如右图如何求得这个代价函数的最小值解?即求导或者求偏导,解出J最小值时的theta值即为所求。使用正规方程求解参数th

2020-08-08 11:32:44 331

原创 机器学习011_特征和多项式回归

1、概要在这里,我们将学习一些可供我们选择的特征,及如何得到不一样的算法,在选择了合适的特征之后,这些算法将会非常有效。以及学习多项式回归,这会使得我们 能够使用线性回归的方法来拟合非常复杂的函数,甚至是非线性函数。2、案例以预测房价为例:先要选择合适的特征写出相应的假设函数。这里先给出了一个两个特征的假设函数,分别为临街宽度X1和纵向宽度X2。但是,如果从另一个角度来看问题,房价的主要是取决于房子面积大小,那么我们可以自定义一个特征房子面积X(=X1*X2)来建立模型,而不是直接使用给

2020-08-08 10:29:00 387

原创 机器学习010_梯度下降技巧2_学习率

一、背景梯度下降的使用技巧2:学习率。技巧1是特征值的缩放,关乎梯度下降的收敛快慢;技巧2是学习率,涉及到了梯度下降中的步伐大小。二、梯度下降的两个问题问题一:调试以确保梯度下降正常工作方法1:可以通过观察下面的图像左侧。关于迭代次数和代价函数的图像。每一次迭代得到一个参数值使得此时的代价函数是取得最小值的。如果梯度下降运行正确的话,那么代价函数应该随着迭代次数逐渐下降。如图,在300~400的迭代次数之间,图像趋于平缓,可以得知此时梯度下降已经收敛。方法2:进行自动的收敛测试也就

2020-07-18 17:59:54 383

原创 机器学习009_梯度下降技巧1_特征缩放

一、特征缩放(Feature Scaling)1、假设情景:一个假设函数有两个特征值,忽略x0=1。x1和x2的范围幅度相差较大,对应的代价函数可能是下图中左边的,此时图形可能呈很扁的椭圆状,那么,在一次梯度运算时,可能会从边上反复震荡多次才能达到全局最优解处,所花费的时间也比较长。2、解决办法:特征缩放,即将两个特征值x1,x2进行缩放,如右边,使得x1和x2处在类似的范围内0~1之间,此时,对应的代价函数J的图形较圆,进行一次梯度下降花费的时间也较短,就会更快的收敛。...

2020-07-18 16:53:14 436

原创 机器学习008_多元线性回归

引导这一节,讨论一种新的线性回归的算法。

2020-07-14 16:12:18 162

原创 机器学习007_梯度下降(针对线性回归代价函数J)

1)背景之前学习过了梯度下降、线性回归模型、平方差代价函数J。上一节学习了梯度下降和任意代价函数J相结合,这一节学习将平方差代价函数J和梯度下降相结合,得到机器学习的第一个算法===线性回归算法。2)...

2020-06-11 16:00:47 221

原创 机器学习006_梯度下降(针对任意代价函数J)

1)简介梯度下降算法 - 一种能自动找到代价函数J最小值的算法。梯度下降法不仅用于线性回归,还用于机器学习的众多领域。在后面将学习到用梯度下降法去优化除线性回归的代价函数J和最小化任意函数J。2)问题描述下面我们使用梯度下降算法来最小化一个任意函数J:对于这个任意函数J,我们需要找到一组参数值来最小化它。先初始化参数值,通常是把参数初始化为0,再一点一点改变参数的值,来最小化该函数J:对于下图的代价函数,每次执行一次梯度下降算法时,先将参数初始化一个值,就对应于代价函数J的一个点,再一步步收敛

2020-06-10 15:53:24 337

原创 机器学习005_代价函数

背景关联于上一节的线性回归模型,探讨如何实现该模型。代价函数如何实现线性回归模型,则要弄清楚该怎么把最有可能的直线与我们的数据拟合,即确定该假定函数的两个参数。在线性回归中,我们要解决的是一个最小化问题。要使得假设输出的值和实际值的差的平方尽量小。实际上就是尽量减少假设输出值和实际值之间的方差最小化,即求和最小化实际上就是**(方差*M)的最小化**,也就是方差最小化,也就是方差的1/2最小化。简而言之,在把问题变成 找到能使得训练集中的预测值和真实值的差的平方的和的1/2M最小的两个参数

2020-06-04 18:26:37 394

原创 机器学习004_模型描述

训练集在监督学习中,有一个数据集被称为训练集。并且,用到一些常用的符号。监督学习的工作过程向学习算法提供一组训练集,设定一个假设函数,由给定输入可以得到假定输出。上图中右侧的模型为线性回归模型,也成为单变量线性回归模型。...

2020-06-04 17:37:50 166

原创 机器学习003_无监督学习

是非典

2020-06-04 17:10:59 251

原创 机器学习002_监督学习

superviced learning含义"right answers" given.给定某个算法一个数据集,其中包含正确的数据,那么我们希望该算法可给出更多的正确的数据。(1)Regression:Predict continuous valued output.回归问题。即希望算法预测出连续的数值输出。Regression 意味着我们设法预测连续值的属性。(2)Classifi cation:discrete valued output.分类问题:设法预测出一个离散值的输出。...

2020-06-04 16:08:25 118

原创 机器学习001_概述

(一)吴恩达机器学习_概述背景AI技术衍生出的一种。应用领域:数据挖掘、无法手动编写的程序、自然语言处理、计算机视觉、私人订制程序(Google)等。定义1.在没有明确设置下,使计算机具有学习能力的领域。2.计算机程序在实验E中学习解决某一任务T进行某一性能度量P,通过P测定在T上的表现因经验E而提高。学习算法1.监督学习:教会计算机怎么去做一件事情。2.无监督学习:计算机自己学习去做一些事情。3.强化学习4.推荐系统...

2020-06-04 15:41:18 219

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除