as659826-CSDN博客

转载机器学习-贝叶斯网络-笔记

贝叶斯网络描述：　　1）贝叶斯网络(Bayesian network)，又称信念网络(Belief Network)，或有向无环图模型(directedacyclic graphical model)，是一种概率图模型是一种模拟人类推理过程中因果关系的不确定性处理模型，其网络拓朴结构是一个有向无环图(DAG)。考察一组随机变量{X1,X2...Xn}及其n组条件概率分布(Condit...

2019-10-06 11:28:00 668

转载机器学习-EM算法-pLSA模型笔记

pLSA模型--基于概率统计的pLSA模型(probabilistic Latent Semantic Analysis，概率隐语义分析)，增加了主题模型，形成简单的贝叶斯网络，可以使用EM算法学习模型参数。概率潜在语义分析应用于信息检索，过滤，自然语言处理，文本的机器学习或者其他相关领域。D代表文档，Z代表主题(隐含类别)，W代表单词；　　P(di)表示文档di的出现概率，...

2019-10-04 14:49:00 393

转载机器学习-EM算法-GMM模型笔记

GMM即高斯混合模型，下面根据EM模型从理论公式推导GMM：　　　　随机变量X是有K个高斯分布混合而成，取各个高斯分布的概率为φ1，φ2，... ，φK，第i个高斯分布的均值为μi，方差为Σi。若观测到随机变量X的一系列样本x1,x2,...,xn，试估计参数φ，μ，Σ。　　　　E-step　　　　M-step　　　　将多项分布和高斯分布的参数带入EM模型：　　...

2019-10-04 10:24:00 279

转载机器学习-EM算法笔记

EM算法也称期望最大化（Expectation-Maximum,简称EM）算法，它是一个基础算法，是很多机器学习领域算法的基础，比如隐式马尔科夫算法（HMM）， LDA主题模型的变分推断，混合高斯模型GMM，基于概率统计的pLSA模型。EM算法概述(原文)　　　　我们经常会从样本观察数据中，找出样本的模型参数。最常用的方法就是极大化模型分布的对数似然函数。　　　　但是在一些...

2019-10-04 09:38:00 231

转载机器学习-聚类-谱聚类算法笔记

在学习谱聚类算法之前，首先复习一下：实对称阵的特征值是实数实对称阵不同特征值的特征向量正交令实对称矩阵为A，其两个不同的特征值λ1λ2对应的特征向量分别是μ1μ2；λ1λ2 μ1μ2都是实数或是实向量。正式介绍谱聚类　　谱和谱聚类　　方阵作为线性算子，它的所有特征值的全体统称方阵的谱。　　方阵的谱半径为最大的特征值　　矩阵A的谱半径：(ATA)的最大...

2019-10-01 21:26:00 993

转载机器学习-聚类-密度聚类算法笔记

密度聚类方法：1.DBSCAN 2.密度最大值算法密度聚类方法的指导思想是，只要样本点的密度大于某阈值，则将该样本添加到最近的簇中。这类算法能克服基于距离的算法只能发现“类圆形”(凸)的聚类的缺点，可发现任意形状的聚类，且对噪声数据不敏感。但计算密度单元的计算复杂度大，需要建立空间索引来降低计算量。DBSCAN(Density-Based Spatial Clusteri...

2019-10-01 17:07:00 472

转载机器学习-聚类-层次聚类算法笔记

层次聚类方法层次聚类方法对给定的数据集进行层次的分解，直到某种条件满足为止。具体又可分为：1）凝聚的层次聚类：AGNES算法一种自底向上的策略，首先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，直到某个终结条件被满足。2）分裂的层次聚类：DIANA算法采用自顶向下的策略，它首先将所有对象臵于一个簇中，然后逐渐细分为越来越小的簇，直到达到了某个终结条件...

2019-10-01 16:27:00 462

转载机器学习-聚类-k-Means算法笔记

聚类的定义：聚类就是对大量未知标注的数据集，按数据的内在相似性将数据集划分为多个类别，使类别内的数据相似度较大而类别间的数据相似度较小，它是无监督学习。聚类的基本思想：给定一个有N个对象的数据集，构造数据的k个簇，k≤n。满足下列条件：　　1. 每一个簇至少包含一个对象　　2. 每一个对象属于且仅属于一个簇　　3. 将满足上述条件的k个簇称作一个合理划分基本思想：对于给定的类...

2019-10-01 15:42:00 997

转载机器学习支持向量机SVM笔记

SVM简述：SVM是一个线性二类分类器，当然通过选取特定的核函数也可也建立一个非线性支持向量机。SVM也可以做一些回归任务，但是它预测的时效性不是太长，他通过训练只能预测比较近的数据变化，至于再往后的变化SVM可能就不起作用了。SVM的思想下面举个简单的例子。如下图所示，现在有一个二维平面，平面上有两种不同的数据，分别用圈和叉表示。由于这些数据是线性可分的，所以可以用一条直线...

2019-09-29 16:39:00 198

转载机器学习xgboost参数解释笔记

首先xgboost有两种接口，xgboost自带API和Scikit-Learn的API，具体用法有细微的差别但不大。在运行 XGBoost 之前, 我们必须设置三种类型的参数: （常规参数）general parameters，（提升器参数）booster parameters和（任务参数）task parameters。常规参数与我们用于提升的提升器有关，通常是树模型或线性模...

2019-09-27 22:03:00 396

转载机器学习之Adaboost与XGBoost笔记

提升的概念　　提升是一个机器学习技术，可以用于回归和分类问题，它每一步产生一个弱预测模型（如决策树），并加权累加到总模型中；如果每一步的弱预测模型生成都是依据损失函数的梯度方向，则称之为梯度提升（Gradient boosting）梯度提升算法首先给定一个目标损失函数，它的定义域是所有可行的若函数集合（基函数）；提升算法通过迭代的选择一个负梯度方向上的基函数来逐渐逼...

2019-09-26 22:12:00 507

转载机器学习之Bagging与随机森林笔记

集成学习通过将多个学习器进行结合，常可获得比单一学习器显著优越的泛化性能。这对“弱学习器”尤为明显，因此集成学习的很多理论研究都是针对弱学习器进行的，而基学习器有时也被直接称为弱学习器。虽然从理论上来说使用弱学习器集成足以获得好的性能，但在实践中出于种种考虑，例如希望使用较少的个体学习器，或是重用关于常见学习器的一些经验等，人们往往会使用比较强的学习器。当然，还得看实践的结果，有时也不一...

2019-09-26 19:25:00 325

转载机器学习之决策树笔记

决策树1.决策树是一种树型结构，其中每个内部结点表示在一个属性上的测试，每个分支代表一个测试输出，每个叶子结点代表一种类别。2.决策树学习是以实例为基础的归纳学习3.决策树学习采用的是自顶向下的递归方法，其基本思想是以信息熵为度量构造一棵熵值下降最快的树，到叶子节点处的熵值为零，此时每个叶子节点中的实例都属于同一类。决策树学习算法的特点1.决策树学习算法的最大优...

2019-09-26 11:38:00 174

转载机器学习之softmax回归笔记

本次笔记绝大部分转自https://www.cnblogs.com/Luv-GEM/p/10674719.htmlsoftmax回归Logistic回归是用来解决二类分类问题的，如果要解决的问题是多分类问题呢？那就要用到softmax回归了，它是Logistic回归在多分类问题上的推广。此处神经网络模型开始乱入，softmax回归一般用于神经网络的输出层，此时输出层叫做softm...

2019-09-20 20:29:00 171

转载机器学习之逻辑回归(Logistic)笔记

在说逻辑回归之前，可以先说一说逻辑回归与线性回归的区别：逻辑回归与线性回归在学习规则形式上是完全一致的，它们的区别在于hθ(x(i))为什么样的函数当hθ(x(i))=θTx(i)时，表示的是线性回归，它的任务是做回归用的。当时，表示的是逻辑回归，假定模型服从二项分布，使用最大似然函数推导的，它的任务是做分类用的，逻辑回归是一个广义的线性模型，是对数线性模型。下面就...

2019-09-20 19:29:00 141

转载机器学习之模型拟合效果的判断笔记

对于m个样本某模型的估计值为计算样本的总平方和TSS(Total Sum of Squares):计算残差平方和RSS(Residual Sum of Squares):　　RSS即误差平方和SSE(Sum of Squares for Error)定义 R2=1-RSS/TSS　　R2越大，拟合效果越好　　R2的最优值为1　　若预测值恒为...

2019-09-20 17:29:00 3036

转载机器学习最小二乘法笔记

最小二乘法是简单线性回归法，下面我将学习到的最小二乘法的推导过程列出来转载于:https://www.cnblogs.com/yang901112/p/11544675.html

2019-09-18 19:32:00 178

转载机器学习之线性回归笔记

线性回归若只考虑两个特征变量我们可以建立线性方程：对于多个特征变量我们可以建立：是预测值，它与真实值存在一定的误差：为预测值，y(i)为真实值。误差ε(i)是独立同分布的，服从均值为0，方差为某定值σ2的高斯分布为什么每个样本误差ε是独立同分布的？答：误差可能是正的也可能是负的，它们之间是独立的互不影响，每个样本都是独立的。误差分布情况是独立...

2019-09-18 16:10:00 143

转载机器学习之主成分分析PCA原理笔记

1. 相关背景在许多领域的研究与应用中，通常需要对含有多个变量的数据进行观测，收集大量数据后进行分析寻找规律。多变量大数据集无疑会为研究和应用提供丰富的信息，但是也在一定程度上增加了数据采集的工作量。更重要的是在很多情形下，许多变量之间可能存在相关性，从而增加了问题分析的复杂性。如果分别对每个指标进行分析，分析往往是孤立的，不能完全利用数据中的信息，因此盲目减少指标会损失很多有...

2019-09-18 15:32:00 366

转载机器学习SVD笔记

机器学习中SVD总结矩阵分解的方法特征值分解。PCA(Principal Component Analysis)分解，作用：降维、压缩。SVD(Singular Value Decomposition)分解，也叫奇异值分解。LSI(Latent Semantic Indexing)或者叫LSA(Latent Semantic Analysis)，隐语义分析分解。...

2019-09-18 15:21:00 241

转载 c语言数据结构之线性表的顺序存储结构

线性表，即线性存储结构，将具有“一对一”关系的数据“线性”地存储到物理空间中，这种存储结构就称为线性存储结构，简称线性表。注意：使用线性表存储的数据，要求数据类型必须一致，线性表存储的数据，要么全不都是整形，要么全部都是字符串。一半是整形，另一半是字符串的一组数据无法使用线性表存储。线性表存储数据可以分为：顺序存储结构和链式存储结构...

2019-09-07 20:51:00 133

转载机器学习理论基础2笔记

在学习机器学习之前熟悉一下机器学习相关的词，对今后的机器学习有一定的帮助，使得我们能够更为清晰的认识机器学习此次的笔记只是一种简要的概括，具体的可以参照博客https://www.csdn.net/gather_27/MtTacg5sOTg2Ni1ibG9n.html当然还有其它的，只要我们能够学到好东西就可以收藏。机器学习关于数据集的概念什么样的数据集...

2019-09-07 14:59:00 121

转载数据结构笔记01

数据结构的起源计算机从解决数值计算问题到解决生活中的问题现实生活中的问题涉及不同个体间的复杂关系需要在计算机程序中描述生活中个体间的联系数据结构主要研究非数值计算程序问题中的操作对象以及它们之间的关系不是研究复杂的算法数据结构中的基本概念数据—程序的操作对象，用于描述客观...

2019-09-05 17:49:00 62

转载机器学习理论基础01笔记

1. 大数据时代究竟改变了什么？思维方式数据重要性：数据资源-->数据资产（增值）方法论：基于知识的理论完美主义、基于数据的历史经验主义数据分析：统计学（抽样）.......数据科学（大数据）、数据科学家（大数据+算法+更加丰富的业务知识）计算智能：复杂算法-----简单算法（MapReduce）决策方...

2019-09-04 17:47:00 94

转载机器学习之matplotlib实例笔记

下面的图型是在一幅画布上建立的四个球员相关数据的极坐标图关于这个图的代码如下： 1 #_*_coding:utf-8_*_ 2 import numpy as np 3 import matplotlib.pyplot as plt 4 from matplotlib.font_manager import FontProperties 5 plt...

2019-09-02 11:33:00 85

转载机器学习之matplotlib笔记3

关于matplotlib的绘制图形的基本代码，我们可以参照下面的连接https://matplotlib.org/gallery/index.htmlhttps://matplotlib.org/api/_as_gen/matplotlib.pyplot.subplot.html#matplotlib.pyplot.subplothttps://matplotlib.org/...

2019-08-31 21:44:00 112

转载机器学习pandas之时间重采样笔记

周期由高频率转向低频率称为降采样：例如5分钟股票交易数据转换为日交易数据相反，周期也可以由低频转向高频称为升采样其他重采样：例如每周三（W-WED）转换为每周五（W-FRI） 1 import pandas as pd 2 import numpy as np 3 4 # 创建一个时间戳序列 5 s = pd.Series(np.random.rand...

2019-08-30 12:05:00 223

转载机器学习pandas之时间序列笔记

时间戳tiimestamp：固定的时刻->pd.Timestamp固定时期period:比如2016年3月份，再如2015年销售额->pd.Period时间间隔interval:由起始时间和结束时间来表示，固定时期是时间间隔的一个特殊时间日期在Pandas里的作用：分析金融数据，如股票交易数据 1 import pandas as pd 2...

2019-08-28 21:51:00 182

转载机器学习pandas之数据IO笔记

pandas在进行数据存储与输出时会做一些相应的操作1.*索引：将一个列或多个列读取出来构成DataFrame，其中涉及是否从文件中读取索引以及列名2 *类型推断和数据转换：包括用户自定义的转换以及缺失值标记3 *日期解析4*迭代：针对大文件进行逐块迭代。这个是Pandas和Python原生的csv库的最大区别5 *不规整数据问题：跳过一些行，或注释等等...

2019-08-28 19:12:00 127

转载机器学习pandas之聚合运算

通过聚合运算可以得到我们比较感兴趣的数据以方便处理 1 import pandas as pd 2 import numpy as np 3 4 # 先创建一组数据表DataFrame 5 df = pd.DataFrame({'key1':['a','a','b','b','a'], 6 'key2':['one','t...

2019-08-28 17:41:00 198

转载机器学习pandas之分组计算笔记

分组计算三部曲：拆分-->应用-->合并分组：就是按照行或列把相同索引的部分分到一起分组的关键词为groupby，分组后我们就可以对每组数据进行同一操作，返回的是每组数据分别计算后的结果 1 import pandas as pd 2 import numpy as np 3 4 # 先创建一个DataFrame 5 df = pd.Data...

2019-08-28 10:13:00 238

转载机器学习之pandas 索引笔记

1 import pandas as pd 2 import numpy as np 3 4 s = pd.Series(np.random.rand(5), index=list('abcde')) 5 ＃创建序列，其中 index=list('abcde')为每一行添加索引 6 s.index.name='alpha' # 为行索引添加名称标签 7...

2019-08-27 21:52:00 77

转载机器学习之 matplotlib笔记2

颜色和样式八种内建默认颜色缩写b:blue g:green r:red c:cyan m:magenta y:yellow k:black w:white其它颜色表示方法可以参照百度给的值https://baike.baidu.com/item/%E5%8D%81%E5%85%AD%E8%BF%9B%E5%88%B6%E9%A2%9C%E8%89%B2%E7%A0%81...

2019-08-27 20:53:00 106

转载机器学习之 matplotlib笔记1

散点图-scatter散点图显示两组数据的值，每个点的坐标位置由变量的值决定由一组不连接的点完成，用于观察两种变量的相关 1 import numpy as np 2 import matplotlib.pyplot as plt #导入绘图模块 3 4 height = [161, 170, 182, 175, 173, 165] 5 weight =...

2019-08-27 13:23:00 80

转载机器学习pandas数据结构之基础运算笔记

1 import pandas as pd 2 import numpy as np 3 4 s = pd.Series([1,3,5,6,8],index=list('acefh')) 5 s.index # 读取行索引 6 # 输出 Index(['a', 'c', 'e', 'f', 'h'], dtype='object') 7 8 s.r...

2019-08-22 22:59:00 92

转载机器学习pandas数据结构之Panel笔记

Panel创建的是三维的表items:坐标轴0，索引对应的元素是一个DataFramemajor_axis:坐标轴1，DataFrame里的行标签minor_axis:坐标轴2，DataFrame里的列标签下面看一下一些代码演练 1 import numpy as np 2 import pandas as pd 3 4 data = {'Item1...

2019-08-22 22:52:00 633

转载机器学习pandas数据结构之DataFrame笔记

DataFrame输出的为表的形式，由于要把输出的表格贴上来比较麻烦，在此就不在贴出相关输出结果，代码在jupyternotebook可以顺利运行代码中有相关解释用来加深理解方便记忆 1 import numpy as np 2 import pandas as pd 3 4 d = {'one':pd.Series([1,2,3],index=['a','b',...

2019-08-22 22:45:00 252

转载机器学习pandas数据结构之Series笔记

对Series的理解也源于对其相关的代码操作，本次仅贴一些代码来加深理解以及记忆 1 import pandas as pd 2 import numpy as np 3 s = pd.Series(np.random.randn(5),index=['a','b','c','d','e']) # index添加行索引 4 s 5 # 输出 6 ...

2019-08-22 22:20:00 140

转载机器学习之ndarray笔记续

数组的索引与切片多维数组的索引 1 import numpy as np 2 arr=np.arange(1,25).reshape(2,3,4) 3 arr 4 # 输出 array([[[ 1, 2, 3, 4], 5 [ 5, 6, 7, 8], 6 [ 9, 10, 11, 12]...

2019-08-20 21:04:00 148

转载机器学习之ndarray笔记

Numpy的介绍1. Ndarray：N-dimensional array, N维数组2. 一种由相同类型的元素组成的多维数组，元素数量是事先指定好的例：建立Ndarray多维数组 ndarray父类实现矩阵的创建基本方式：arr = np.array( [ [1,2,3,4], [2,3,4,5]])这是一个二维数组arr....

2019-08-19 22:20:00 409

空空如也

空空如也