机器学习
文章平均质量分 69
fafagege11520
梦想:既可提刀立码,行遍天下;又可调参炼丹,卧于隆中。
展开
-
机器学习深版11:HMM模型
机器学习深版11:HMM模型(隐马尔科夫模型)文章目录机器学习深版11:HMM模型(隐马尔科夫模型)1. 熵(Entropy)2. 最大熵模型3. HMM(隐马尔可夫模型)1. 熵(Entropy)熵是表示物质系统状态的一种度量,用它老表征系统的无序程度。熵越大,系统越无序,意味着系统结构和运动的不确定和无规则。2. 最大熵模型我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险。在信息处理中,这个原理同样适用。在数学上,这个原理称为最大熵原理(the maximum entropy原创 2021-02-25 10:40:30 · 332 阅读 · 0 评论 -
机器学习深版10:主题模型
机器学习深版10:主题模型TopicModel文章目录机器学习深版10:主题模型TopicModel1. 简介2. 主题分布与词分布1. 两点分布2. 二项分布(伯努利分布)3. 多项式分布3. 参数估计1. 极大似然估计2.贝叶斯估计3. 共轭先验分布4. 形式化LDA1. 简介LDA(Latent Dirichlet Allocation)是一种文档生成模型。它认为一篇文章是有多个主题的,而每个主题又对应着不同的词。一篇文章的构造过程,首先是以一定的概率选择某个主题,然后再在这个主题下以一定的概率原创 2021-02-23 16:08:44 · 280 阅读 · 0 评论 -
PCA原理
https://blog.csdn.net/zhu_wendao/article/details/89924202转载 2021-02-23 00:13:42 · 81 阅读 · 0 评论 -
为什么样本方差计算是除以n-1?
为什么样本方差计算是除以n-1?在详细推导过程前,我们先明确以下几个数学符号的概念。n表示可采样的样本数量,xi 表示样本数据,x拔 表示样本均值,μ 表示样本的真实均值,S平方 表示样本实际方差,σ平方 表示样本真实方差,D(x) 表示随机变量x的方差。...原创 2021-02-21 14:35:53 · 835 阅读 · 0 评论 -
机器学习:ACC、ROC和AUC
机器学习:ACC、ROC和AUC文章目录机器学习:ACC、ROC和AUC引言ROC简介如何画ROC曲线既然有了ACC为什么要有ROC呢(既生瑜何生亮呢)引言很多时候我们都用到ROC和AUC来评判一个二值分类器的优劣,其实AUC跟ROC息息相关,AUC就是ROC曲线下部分的面积,所以需要首先知道什么是ROC,ROC怎么得来的。然后我们要知道一般分类器会有个准确率ACC,那么既然有了ACC,为什么还要有ROC呢,ACC和ROC的区别又在哪儿,这是我喜欢的一种既生瑜何生亮问题。最后又简单说明了一下有了RO原创 2021-02-04 20:37:06 · 724 阅读 · 0 评论 -
深度学习模型评估指标
深度学习模型评估指标文章目录深度学习模型评估指标1. 基本指标2. 指标1. 准确率Accuracy2. 精确度Precision和召回率Recall3. F1 score4. 混淆矩阵5. ROC曲线与AUC指标6. TAR,FRR,FAR1. 基本指标标签为正样本,分类为正样本的数目为True Positive,简称TP;标签为正样本,分类为负样本的数目为False Negative,简称FN;标签为负样本,分类为正样本的数目为False Positive,简称FP;标签为负样本,分类为负样原创 2021-02-04 09:31:02 · 2958 阅读 · 0 评论 -
机器学习深版09:贝叶斯网络
机器学习深版09:贝叶斯网络文章目录机器学习深版09:贝叶斯网络1. 复习1. 信息熵(熵)2. 交叉熵3. 相对熵(KL散度)4. 互信息5. 信息增益6. 概率三公式7. 金条问题2. 朴素贝叶斯以文本分类为例3. 贝叶斯网络一个简单的贝叶斯网络全连接贝叶斯网络正常的贝叶斯网络实际案例分析特殊的贝叶斯网络其他解释说明1. 复习1. 信息熵(熵)**一条信息的信息量大小和它的不确定性有直接的关系。**我们需要搞清楚一件非常非常不确定的事,或者是我们一无所知的事,就需要了解大量的信息。相反,如果我们原创 2021-01-06 17:20:10 · 293 阅读 · 0 评论 -
机器学习深版08:EM算法
机器学习深版08:EM算法文章目录机器学习深版08:EM算法1. 铺垫2. 问题引入与欧拉解释3. 更加严谨的推导1. 铺垫Jensen不等式:对于凸函数,有以下结论:上图是连续的下图是离散的:2. 问题引入与欧拉解释问题提出:K-means算法可以将数据分成簇,但是却给不出它的后验概率。高斯混合模型GMM,混合高斯分布不是高斯分布。结论是正确的,解释过程略有问题。先验假设对最后的结果会有影响,有时影响是决定性的。GMM实际上是一个多极值的函数,如下图理解:原创 2020-12-21 10:44:42 · 95 阅读 · 0 评论 -
机器学习深版07:聚类
机器学习深版07:聚类文章目录机器学习深版07:聚类1. 无监督学习2. 聚类1. 相似度/距离计算方法总结2. k-Means算法1.修正2.公式化解释3. 衡量指标4. 已知实际的结果2. 没有标记结果的判断1. 无监督学习相比之前的有监督学习不同。其实是做一个降维。2. 聚类1. 相似度/距离计算方法总结余弦相似度与Pearson相似系数本质上是一样的:2. k-Means算法1.修正希望初始化聚类中心的时候距离就比较远。k-Means++,应用权值和距离更新的一些方原创 2020-12-16 10:27:18 · 89 阅读 · 0 评论 -
机器学习深版06:SVM
机器学习深版06:支持向量机SVM文章目录机器学习深版06:支持向量机SVM1. 各种概念分类1. 线性可分的SVM(样本不会在分割面上出现)1. 简单概念2. SVM不同参数3. 深入理解1. 输入数据4. 举例:2. 线性SVM1.原因:2. 基本概念1. 各种概念分类1. 线性可分的SVM(样本不会在分割面上出现)1. 简单概念如何理解这个式子:+1是法线的正方向,-1是法线的负方向2. SVM不同参数伽马越大,越接近曲面,越小越像线性的。c:越大过渡带越窄。3. 深入理解原创 2020-12-09 11:02:48 · 95 阅读 · 0 评论 -
机器学习深版05:XGBoost实践
机器学习深版05:XGBoost实践文章目录机器学习深版05:XGBoost实践1. 泰坦尼克2.毒蘑菇的代码3. 鸢尾花数据4. 葡萄酒5. 读取数据参考文章:https://blog.csdn.net/zhaiax672/article/details/80488242?utm_medium=distribute.pc_relevant_bbs_down.none-task-blog-baidujs-1.nonecase&depth_1-utm_source=distribute.pc_原创 2020-12-08 16:57:39 · 75 阅读 · 0 评论 -
机器学习深版04:提升
机器学习深版04:提升(Boosting)文章目录机器学习深版04:提升(Boosting)1. 分析随机森林的特点2. 提升1. 概念3. GBDT 梯度提升决策树4. XGBoost算法推导1. 定义树的复杂度2. XGBoost中的Boosting Tree模型3. 对目标函数进行改写4. 树结构的打分函数5. Adaboost算法1. 公式推导2.举例:3. 为什么结果会收敛4. 一种理解方式6. 方差与偏差7.补充:目标函数的组成参考文章:https://www.cnblogs.com/j原创 2020-12-07 16:45:56 · 299 阅读 · 0 评论 -
机器学习深版03:决策树和随机森林
机器学习深版03:决策树和随机森林文章目录机器学习深版03:决策树和随机森林1. 信息熵1. CART(Classification and Regression Trees 分类与回归树)2. 决策树3. Bagging 与 随机森林1. 信息熵1. CART(Classification and Regression Trees 分类与回归树)2. 决策树3. Bagging 与 随机森林...原创 2020-12-05 09:35:32 · 160 阅读 · 0 评论 -
机器学习深版02:回归
机器学习深版02:回归文章目录机器学习深版02:回归1. 线性回归1. 高斯分布(正态分布)2. 假设3. 最小二乘法的本质4. 岭回归(Ridge回归)5. LASSO6. ElasticNet7. 机器学习与数据使用8. SVD计算矩阵的广义逆9. 梯度下降1. BGD:批量梯度下降算法2. SGD(随机梯度下降)3. mini-batch-SGD2. Logistic回归3. 多分类:Softmax1. 线性回归1. 高斯分布(正态分布)2. 假设应该是正确的,而不是绝对正确只是接近原创 2020-11-27 11:12:45 · 85 阅读 · 0 评论 -
机器学习深版01:数据清洗
机器学习深版01:数据清洗文章目录机器学习深版01:数据清洗1.极大似然估计1.极大似然估计原创 2020-11-25 11:21:28 · 245 阅读 · 0 评论 -
机器学习笔记09:非监督学习
机器学习笔记09:非监督学习文章目录机器学习笔记09:非监督学习3.非监督学习(unsupervised learning)3.非监督学习(unsupervised learning)只知道特征值不知道目标值主要方法:k-means步骤:1、随机设置K个特征空间内的点作为初始的聚类中心2、对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类中心点作为标记类别3、接着对着标记的聚类中心之后,重新计算出每个聚类的新中心点(平均值)4、如果计算得出的新中心点与原中心点一样,那么结束,原创 2020-11-12 11:06:09 · 102 阅读 · 0 评论 -
机器学习笔记08:模型的保存与逻辑回归
机器学习笔记08:模型的保存与逻辑回归文章目录机器学习笔记08:模型的保存与逻辑回归1.模型的保存与加载2.逻辑回归:分类算法1.模型的保存与加载API:from sklearn.externals import joblibjoblib.dump(lr,"目录xxxxx.pkl")# 使用model = joblib.load("目录xxxxx.pkl")y_predict = std_y.inverse_transform(model.predict(x_test))2.逻辑回归原创 2020-11-12 10:41:28 · 429 阅读 · 1 评论 -
机器学习笔记07:线性回归
线性回归文章目录线性回归1.回归问题:1.回归问题:目标值是连续的。相比分类问题,分类问题的目标值是离散的。回归:找一种能预测的趋势。线性关系:二维:直线关系;三维:平面关系。多个特征:定义:矩阵:数组与矩阵的区别:损失函数:方法1:正规方程(不怎么用)方法2:梯度下降非常重要,这是一个迭代过程。API:sklearn.linear_model.SGDRegressor通过使用SGD最小化线性模型:coef_:回归系数案例:波士顿地区房价数据获取原创 2020-11-10 10:36:10 · 172 阅读 · 0 评论 -
机器学习笔记:思维导图
思维导图文章目录思维导图原创 2020-11-05 11:25:49 · 158 阅读 · 0 评论 -
机器学习笔记06:决策树和随机森林
决策树和随机森林文章目录决策树和随机森林1.决策树2.随机森林1.决策树信息熵:信息是和不确定性相关的,当知道了一些信息后,不确定性下降了,信息熵也下降。信息增益:得知一个特征条件之后,减少信息熵的程度。信息增益哪个大哪个排在前面,进行分类。class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None)决策树分类器criterion:默认是’gini’系数,也原创 2020-11-05 11:24:38 · 238 阅读 · 0 评论 -
机器学习笔记05:朴素贝叶斯
朴素贝叶斯文章目录朴素贝叶斯1. 概率基础2.fit、transform、fit_transform区别3. 朴素贝叶斯(Naive Bayesian)4. 分类模型的评估5. 模型选择和调优1. 概率基础案例:垃圾邮件的分类概率:一件事情发生的可能性。条件:所有特征之间是相互独立的题目:在夏季,某公园男性穿凉鞋的概率为 12 ,女性穿凉鞋的概率为 23 ,并且该公园中男女比例通常为 2:1 ,问题:若你在公园中随机遇到一个穿凉鞋的人,请问他的性别为男性或女性的概率分别为多少?先验概率原创 2020-11-04 22:13:29 · 290 阅读 · 0 评论 -
机器学习笔记04:k----近邻算法
k------近邻算法文章目录k------近邻算法1.思想1.思想你和邻居的距离判断你的类型定义:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。距离:数据处理:标准化处理API:sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm=‘auto’)n_neighbors:int,可选(默认= 5),k_neighbors查询默认使用的邻居数alg原创 2020-11-03 16:59:03 · 110 阅读 · 0 评论 -
机器学习笔记03:sklearn数据集与估计器
机器学习笔记03:sklearn数据集与估计器文章目录机器学习笔记03:sklearn数据集与估计器sklearn数据集与估计器1、数据集划分2、 API接口:sklearn.model_selection.train_test_split3、 sklearn分类数据集4、 数据集进行分割:5、 sklearn回归数据集6、转换器与估计器sklearn数据集与估计器1、数据集划分训练集(较多)一般是75%测试集(较少)一般是25%2、 API接口:sklearn.model_selectio原创 2020-11-03 12:34:45 · 111 阅读 · 0 评论 -
机器学习笔记02:特征工程
机器学习笔记02:特征工程文章目录机器学习笔记02:特征工程1. 特征工程定义与3个简单案例1. 字典特征抽取:2. 文本特征抽取:3. tf-df分析问题2.特征预处理1.特征处理的方法:1.数值型数据:标准缩放:2.类别型数据:3.事件类型:1. 特征工程定义与3个简单案例定义:提高预测效果。是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的模型准确性。工具:scikit-learn库数据的特征抽取:针对非连续型数据、对文本进行特征值化。API:sklea原创 2020-11-02 10:28:11 · 314 阅读 · 0 评论 -
机器学习笔记01:机器学习介绍
机器学习笔记01:机器学习介绍文章目录机器学习笔记01:机器学习介绍1.人物2.简介3.机器学习概述:4.数据集的构成:1.人物图灵测试:在不知道是机器的情况下和他聊天,不会发觉是个机器。马文:有很大的贡献。2.简介人工智能、机器学习、深度学习3者的关系影响人工智能发展的因素:1.计算 2.数据 3.算法应用:无人驾驶、医疗领域、图片美化、人脸识别、自然语言处理、图像识别、信贷需求预测、店铺销量预测等等3.机器学习概述:定义:机器学习是从数据中自动分析获得规律原创 2020-11-02 09:35:41 · 97 阅读 · 0 评论