阿静我牙疼-CSDN博客

原创统计学习方法-004_第二章聚类分析_2.1聚类分析的概念

2.1 聚类分析的概念2.1.1 聚类分析的基本思想假设原理（1）基本思想（2）特征量的类型（3）方法的有效性特征选取的不同对分类结果的影响：

2020-10-18 11:09:29 344

原创统计学习方法-003_绪论1.2+1.3+1.4

1.2 特征矢量和特征空间（1）特征矢量（2）特征空间（3）随机变量1.3 随机矢量的描述（1）随机矢量的分布函数（2）联合概率密度函数（3）类概率密度函数（4）随机矢量的数字特征① 均值矢量② 条件期望③ 协方差矩阵④ 自相关矩阵⑤ 相关系数⑥ 协方差矩阵的非负定性（5）随机变量、随机矢量之间的统计关系不相关：...

2020-10-13 16:54:33 316

《统计学习方法》-学习视频：B站国科大视频一、概述（1）模式（Pattern）概念：表示形式：（2）模式识别（Pattern Recognition）概念：应用：（3）模式识别的发展前景二、模式识别系统原理框图三、模式识别系统流程四、模式识别过程：五、模式识别的核心问题1、特征选择与提取（1）模式采集（2）预处理（3）特征选择/提取2、学习训练3、分类识别六、分类七、模式识别实例八、模式识别的基本方法九、模式识别的主流技术统

2020-10-12 21:00:29 364

原创机器学习015_分类问题 / logistic回归（草稿）

一、概要接下来，要讨论的是当预测值y是一个离散值时的分类问题要开发的logistic回归算法。逻辑回归解决离散问题；线性回归解决连续问题。分类问题有二分类和多分类，我们这里先学习二分类问题。二、logistic回归算法对于离散分类问题，使用线性回归显然不是好的方法，由上图，若使用线性回归，那么预测值很可能是>1或者<0的情况。逻辑回归算法则会使得y值介于0~1。如果使用线性回归算法，分类器的输出值h(x)可能范围很广。那么，要使得分类器的输出值介于0~1之间，需要对h(x)

2020-10-12 19:46:17 223

原创 python-005_数据可视化库Seaborn

1、Seaborn 简介Seaborn 是基于 Python 且非常受欢迎的图形可视化库，在 Matplotlib 的基础上，进行了更高级的封装，使得作图更加方便快捷。即便是没有什么基础的人，也能通过极简的代码，做出具有分析价值而又十分美观的图形。Seaborn 可以实现 Python 环境下的绝大部分探索性分析的任务，图形化的表达帮助你对数据进行分析，而且对 Python 的其他库（比如 Numpy/Pandas/Scipy）有很好的支持。可以使用pandas读取文件中的数组载入数组，再导入

2020-08-17 18:29:00 340

原创 python-004_pandas.read_csv函数读取文件

1、pandas简介pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现，它是使Python成为强大而高效的数据分析环境的重要因素之一。通过带有标签的列和索引，Pandas 使我们可以以一种所有人都能理解的方式来处理数据。从诸如 csv 类型的文件中导入数据。我们可以用它快速地对数据进行复杂的转换和过滤等操作

2020-08-17 16:01:35 934

原创 python-003_numpy.loadtext函数读取文件

python读取TXT文件，可以自己编写代码读取TXT文件数据并载入数组中；或者调用一些已有的函数来实现此功能。本文介绍调用函数的方法。loadtxt函数，主要用法：numpy.loadtxt(fname, dtype=, comments=’#’, delimiter=None, converters=None, skiprows=0, usecols=None, unpack=False, ndmin=0)参数解析：（1）fname：文件名，最基本的参数a = np.loadtxt(

2020-08-17 14:56:34 2770

原创 python-002_字符编码问题

1、计算机中的字符编码问题最早是ASCII编码，美国人发明，所以只把127个字符进行编码，只需要一个字节，字符A的编码是65，字符z编码是122。中文字符显然一个字节编码不够，且为了不和ASCII冲突，制定GB2312编码，至少需要两个字节进行编码。那么，世界上各种语言有各种语言的编码，那么在多语言混合的文本中，显示会有乱码。所以，出现了Unicode编码，通常使用两个字节（生僻字符会用到四个字节）编码所有的语言字符。但是在大多是英字符的文本中，这种编码在存储和传输上非常不划算。之后出现了U

2020-08-16 19:11:23 289

原创统计学习方法-001_感知机算法及python代码实现

学习参考b站视频：https://www.bilibili.com/video/BV1W7411N7Ag?p=35我的笔记1、背景：通过学习第二章-感知机模型，由简入深，逐渐了解统计学习的三大要素和机器学习的基础。熟悉整个流程。2、统计学习三大要素：模型、策略、算法。3、具体到感知机的三大要素：模型：如下图所示的函数模型策略：找到一个损失函数，并将损失函数最小化。感知机的损失函数：算法：随机梯度下降算法。这里的随机指的是，在原损失函数中，要求求出所有的误分点

2020-08-16 10:05:28 473

原创机器学习014_Python中的向量化编程

1、矢量化/向量化我们推荐使用向量化的形式进行编码，尽可能避免使用for循环而采用向量化形式。对于机器学习领域广为使用的python语言而言，没有内置对于矩阵、向量的支持，毕竟python是一门通用语言。但是，借助一些第三方库（数值线性代数库）如下面的Numpy，我们也可以很容易的处理向量数值运算。2、NumpyNumpy是Numerical Python的缩写，是Python生态系统中高性能科学计算和数据分析所需的基础软件包。它是几乎所有高级工具（如Pandas和scikit-learn）的基础

2020-08-15 16:58:14 595

原创 Git安装及配置

1、Git下载安装下载并双击安装；2、注册github账号3、通过Git生成SSH KeyWindows下打开Git Bash，创建SSH Key，输入：ssh-keygen -t rsa -C "your_email@example.com"默认会在相应路径下（/your_home_path）生成id_rsa和id_rsa.pub两个文件。打开C:\Users\Administrator.ssh目录，“id_rsa.pub”文件内容就是公钥4 、将ssh key公匙添加到GitHub

2020-08-10 18:51:21 237

原创 python-001_环境安装

1、背景吴恩达老师视频里推荐使用Octave，但是现在来看，稍显过时，我们将学习使用Python来实现该课程的编程作业。2、安装Python环境Windows下Python环境的安装，包括Anaconda和Pycharm。1）Anacanda这里推荐安装Anacanda。Anaconda是一个用于科学计算的Python发行版，支持 Linux, Mac, Windows系统，提供了包管理与环境管理的功能，可以很方便地解决多版本Python并存、切换以及各种第三方包安装问题。Anacanda下载：

2020-08-10 14:04:00 204

原创机器学习013_正规方程在矩阵不可逆情况下的解决方法

1、矩阵不可逆矩阵不可逆的情况是很少的，使用Octave时，使用pinv函数可以计算出矩阵不可逆时的解，而函数inv不可以。2、原因及解决方法当特征中存在线性相关的特征时，那么组成的特征矩阵就是不可逆的。此时应删去其中的某个特征。当特征个数远远多于训练样本集个数时（约束条件不够），可以删去一些不重要的特种工或者进行正规化处理（后面再学习到）。...

2020-08-08 11:47:49 3211

原创机器学习012_正规方程（区别于迭代方法的直接解法）

1、概要这里我们将学习正规方程，对于某些线性回归问题，它可以给我们更好的方法来得到求得参数theta的最优值。2、简单对比梯度下降法和正规方程梯度下降法是通过迭代的方法，逐渐收敛到代价函数的最小值处即全局最优解处，来获得参数theta的最优解。而正规方程是一个可以解析theta的方法，即可以一步直接得到theta的最优解。3、对正规方程的直观感受举例：一个简单的代价函数如右图如何求得这个代价函数的最小值解？即求导或者求偏导，解出J最小值时的theta值即为所求。使用正规方程求解参数th

2020-08-08 11:32:44 429

原创机器学习011_特征和多项式回归

1、概要在这里，我们将学习一些可供我们选择的特征，及如何得到不一样的算法，在选择了合适的特征之后，这些算法将会非常有效。以及学习多项式回归，这会使得我们能够使用线性回归的方法来拟合非常复杂的函数，甚至是非线性函数。2、案例以预测房价为例：先要选择合适的特征写出相应的假设函数。这里先给出了一个两个特征的假设函数，分别为临街宽度X1和纵向宽度X2。但是，如果从另一个角度来看问题，房价的主要是取决于房子面积大小，那么我们可以自定义一个特征房子面积X（=X1*X2）来建立模型，而不是直接使用给

2020-08-08 10:29:00 488

原创机器学习010_梯度下降技巧2_学习率

一、背景梯度下降的使用技巧2：学习率。技巧1是特征值的缩放，关乎梯度下降的收敛快慢；技巧2是学习率，涉及到了梯度下降中的步伐大小。二、梯度下降的两个问题问题一：调试以确保梯度下降正常工作方法1：可以通过观察下面的图像左侧。关于迭代次数和代价函数的图像。每一次迭代得到一个参数值使得此时的代价函数是取得最小值的。如果梯度下降运行正确的话，那么代价函数应该随着迭代次数逐渐下降。如图，在300~400的迭代次数之间，图像趋于平缓，可以得知此时梯度下降已经收敛。方法2：进行自动的收敛测试也就

2020-07-18 17:59:54 486

原创机器学习009_梯度下降技巧1_特征缩放

一、特征缩放（Feature Scaling）1、假设情景：一个假设函数有两个特征值，忽略x0=1。x1和x2的范围幅度相差较大，对应的代价函数可能是下图中左边的，此时图形可能呈很扁的椭圆状，那么，在一次梯度运算时，可能会从边上反复震荡多次才能达到全局最优解处，所花费的时间也比较长。2、解决办法：特征缩放，即将两个特征值x1,x2进行缩放，如右边，使得x1和x2处在类似的范围内0~1之间，此时，对应的代价函数J的图形较圆，进行一次梯度下降花费的时间也较短，就会更快的收敛。...

2020-07-18 16:53:14 546

原创机器学习008_多元线性回归

引导这一节，讨论一种新的线性回归的算法。

2020-07-14 16:12:18 205

原创机器学习007_梯度下降（针对线性回归代价函数J）

1）背景之前学习过了梯度下降、线性回归模型、平方差代价函数J。上一节学习了梯度下降和任意代价函数J相结合，这一节学习将平方差代价函数J和梯度下降相结合，得到机器学习的第一个算法===线性回归算法。2）...

2020-06-11 16:00:47 287

原创机器学习006_梯度下降（针对任意代价函数J）

1）简介梯度下降算法 - 一种能自动找到代价函数J最小值的算法。梯度下降法不仅用于线性回归，还用于机器学习的众多领域。在后面将学习到用梯度下降法去优化除线性回归的代价函数J和最小化任意函数J。2）问题描述下面我们使用梯度下降算法来最小化一个任意函数J：对于这个任意函数J，我们需要找到一组参数值来最小化它。先初始化参数值，通常是把参数初始化为0，再一点一点改变参数的值，来最小化该函数J：对于下图的代价函数，每次执行一次梯度下降算法时，先将参数初始化一个值，就对应于代价函数J的一个点，再一步步收敛

2020-06-10 15:53:24 429

原创机器学习005_代价函数

背景关联于上一节的线性回归模型，探讨如何实现该模型。代价函数如何实现线性回归模型，则要弄清楚该怎么把最有可能的直线与我们的数据拟合，即确定该假定函数的两个参数。在线性回归中，我们要解决的是一个最小化问题。要使得假设输出的值和实际值的差的平方尽量小。实际上就是尽量减少假设输出值和实际值之间的方差最小化，即求和最小化实际上就是**（方差*M）的最小化**，也就是方差最小化，也就是方差的1/2最小化。简而言之，在把问题变成找到能使得训练集中的预测值和真实值的差的平方的和的1/2M最小的两个参数

2020-06-04 18:26:37 491

原创机器学习004_模型描述

训练集在监督学习中，有一个数据集被称为训练集。并且，用到一些常用的符号。监督学习的工作过程向学习算法提供一组训练集，设定一个假设函数，由给定输入可以得到假定输出。上图中右侧的模型为线性回归模型，也成为单变量线性回归模型。...

2020-06-04 17:37:50 201

原创机器学习003_无监督学习

是非典

2020-06-04 17:10:59 291

原创机器学习002_监督学习

superviced learning含义"right answers" given.给定某个算法一个数据集，其中包含正确的数据，那么我们希望该算法可给出更多的正确的数据。(1)Regression：Predict continuous valued output.回归问题。即希望算法预测出连续的数值输出。Regression 意味着我们设法预测连续值的属性。（2）Classifi cation：discrete valued output.分类问题：设法预测出一个离散值的输出。...

2020-06-04 16:08:25 148

原创机器学习001_概述

(一)吴恩达机器学习_概述背景AI技术衍生出的一种。应用领域：数据挖掘、无法手动编写的程序、自然语言处理、计算机视觉、私人订制程序（Google）等。定义1.在没有明确设置下，使计算机具有学习能力的领域。2.计算机程序在实验E中学习解决某一任务T进行某一性能度量P，通过P测定在T上的表现因经验E而提高。学习算法1.监督学习：教会计算机怎么去做一件事情。2.无监督学习：计算机自己学习去做一些事情。3.强化学习4.推荐系统...

2020-06-04 15:41:18 286

AB_jingjing的博客