![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习-基础知识
笔记
qq_42749341
这个作者很懒,什么都没留下…
展开
-
机器学习基础算法36-HMM实践
1.高斯分布隐马尔可夫模型# 高斯分布隐马尔科夫模型# 标记值为离散分布,观测值为连续分布import numpy as npfrom hmmlearn import hmmimport matplotlib.pyplot as pltimport matplotlib as mplfrom mpl_toolkits.mplot3d import Axes3Dfrom matplotlib import cmfrom sklearn.metrics.pairwise import pair原创 2020-09-07 20:46:11 · 501 阅读 · 0 评论 -
机器学习基础算法35-HMM
目录一、隐马尔科夫模型1.HMM定义1什么样的问题需要HMM模型2.HMM模型定义3.HMM举例(中看不中用)HMM的三个问题4.概率计算问题1.直接计算法2.前向算法(重要)3.后向算法5.学习问题一、隐马尔科夫模型1.HMM定义隐马尔科夫模型可用于标注问题,在语音识别、NLP、生物信息、模式识别等方面被实践证明是有效算法。HMM是关于时序的概率模型,描述由一个隐藏的马尔科夫链生成不可观测的状态随机序列,再由各个状态生成观测随机序列的过程。状态序列: HMM模型随机生成的状态随机序列观测序列:原创 2020-09-07 15:28:43 · 198 阅读 · 0 评论 -
机器学习基础算法34-主题模型与实践
目录主题模型定义主题模型历史简单案例引入知识储备:SVD——奇异值分解1、特征值2、SVD分解3、SVD与PCAPLSA——概率隐性语义分析1、SVD2、LSA3、PLSAPlSA原理应用1、 PLSA:文档生成模型2、利用文档推断主题分布3、PLSA算法的EM推导LDA模型示意图:案例:主题预测——基于gensim1、步骤:2、 代码3、部分结果案例:主题预测——基于sklearn1、步骤2、代码3、结果分析LDA 原理1、狄利克雷函数2、狄利克雷分布3、共轭分布LDA贝叶斯模型二项分布和BETA分布多项原创 2020-09-07 09:13:20 · 459 阅读 · 0 评论 -
机器学习基础算法33-贝叶斯网络实践
目录1.高斯朴素贝叶斯对鸢尾花数据进行分类2.文本数据的处理流程-20个类别的新闻组数据1.高斯朴素贝叶斯对鸢尾花数据进行分类import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport matplotlib as mplfrom sklearn.preprocessing import StandardScaler, MinMaxScaler, PolynomialFeaturesfrom sklearn原创 2020-09-04 21:40:25 · 149 阅读 · 0 评论 -
机器学习基础算法32-贝叶斯网络理论
这里写目录标题1.复习知识2.朴素贝叶斯3.贝叶斯网络1.复习知识2.朴素贝叶斯3.贝叶斯网络原创 2020-09-04 21:37:29 · 104 阅读 · 0 评论 -
机器学习基础算法31-EM实践
目录1.EM算法的实现2.EM算法估算GMM的参数3.GMM调参:covariance_type4.EM算法无监督分类鸢尾花数据5.GMM/DPGMM(贝叶斯高斯分布)比较1.EM算法的实现import numpy as npfrom scipy.stats import multivariate_normalfrom sklearn.mixture import GaussianMixturefrom mpl_toolkits.mplot3d import Axes3Dimport matpl原创 2020-09-04 14:45:42 · 378 阅读 · 1 评论 -
机器学习基础算法30-EM算法
目录1.通过实例直观求解高斯混合模型GMM2.通过最大似然估计详细推导EM算法3.从理论公式推导GMM的参数4.pLSA模型1.通过实例直观求解高斯混合模型GMM2.通过最大似然估计详细推导EM算法3.从理论公式推导GMM的参数4.pLSA模型...原创 2020-08-31 15:45:08 · 135 阅读 · 0 评论 -
机器学习基础算法29-聚类实战
1.密度聚类# 密度聚类import numpy as npimport matplotlib.pyplot as pltimport sklearn.datasets as dsimport matplotlib.colorsfrom sklearn.cluster import DBSCANfrom sklearn.preprocessing import StandardScalerdef expand(a, b): d = (b - a) * 0.1 return原创 2020-08-30 14:27:23 · 153 阅读 · 0 评论 -
机器学习基础算法28-聚类理论
目录1.相似性的讨论2.Kmeans聚类的思路3.聚类的衡量指标4.层次聚类方法5.密度聚类方法6.密度最大值聚类7.谱聚类8.标签传递算法1.相似性的讨论2.Kmeans聚类的思路3.聚类的衡量指标均一性、完整性、V-measure、ARI(维基百科)、AMI(维基百科)4.层次聚类方法5.密度聚类方法6.密度最大值聚类7.谱聚类8.标签传递算法...原创 2020-08-29 11:15:28 · 162 阅读 · 0 评论 -
机器学习基础算法28-SVM实践
目录1.鸢尾花SVM-二特征分类2.SVM多分类方法:One/One or One/Other3. SVM不同参数的分类-不同的分类器(调参)4.不平衡数据的处理5.分类器指标6.SVM同于手写图片识别7.MINIST数字图片识别8.SVR预测9.SVR调参10.SVM的RBF核与过拟合1.鸢尾花SVM-二特征分类# 鸢尾花SVM-二特征分类import numpy as npimport pandas as pdimport matplotlib as mplimport matplotlib原创 2020-08-29 09:36:28 · 512 阅读 · 0 评论 -
机器学习基础算法26-SVM
目录内容和目标内容和目标原创 2020-08-25 19:33:06 · 82 阅读 · 0 评论 -
机器学习基础算法25-XGBoost实践
目录1.XGBoost简介2.Kaggle简介3.数据预处理-清洗4.案例部分1)判断蘑菇是否有毒-二分类2)判断蘑菇是否有毒-手动读取数据3)鸢尾花数据集-多分类4)葡萄酒分类-多分类5)泰坦尼克号-数据处理麻烦6)AdaBoost实践1.XGBoost简介2.Kaggle简介Kaggle是一个数据分析的竞赛平台,网址为:https://www.kaggle.com/3.数据预处理-清洗特征:重要性高,缺失率低策略:通过计算进行补充;通过经验或业务知识估计特征:重要性高,缺失率高策略:尝原创 2020-08-23 14:28:24 · 347 阅读 · 0 评论 -
机器学习基础算法24-提升
这里写目录标题一、提升1.提升的概念2.提升算法3.梯度提升决策树-GBDT1)提升算法推导-梯度提升法2)GBDT4.XGBT推导1)提升算法推导-考虑使用二阶导信息2)决策树结构的划分3)XGBT总结5.Adaboost算法1)Adaboost算法推导2)Adaboost算法举例3)Adaboost算法收敛性证明4)Adaboost总结6.方差与偏差一、提升1.提升的概念2.提升算法3.梯度提升决策树-GBDT1)提升算法推导-梯度提升法2)GBDT4.XGBT推导1)原创 2020-08-23 10:04:32 · 110 阅读 · 0 评论 -
机器学习基础算法23-多输出的决策树回归
代码import numpy as npimport matplotlib.pyplot as pltfrom sklearn.tree import DecisionTreeRegressorif __name__ == "__main__": N = 400 x = np.random.rand(N) * 8 - 4 # [-4,4) x.sort() # print(x) print('====================')原创 2020-08-20 07:45:43 · 516 阅读 · 0 评论 -
机器学习基础算法22-回归曲线拟合
代码import numpy as npimport matplotlib.pyplot as pltimport matplotlib as mplfrom sklearn.linear_model import RidgeCVfrom sklearn.ensemble import BaggingRegressorfrom sklearn.tree import DecisionTreeRegressorfrom sklearn.pipeline import Pipelinefrom原创 2020-08-20 07:44:37 · 443 阅读 · 0 评论 -
机器学习基础算法21-决策树实践-决策树回归-决策树用于拟合
代码# 决策树用于拟合import numpy as npimport matplotlib.pyplot as pltfrom sklearn.tree import DecisionTreeRegressorif __name__ == "__main__": # 构造数据 N = 100 x = np.random.rand(N) * 6 - 3 # [-3,3) # print(x.shape) # (100,) x.sort()原创 2020-08-20 07:43:57 · 282 阅读 · 0 评论 -
机器学习基础算法20- 鸢尾花数据集分类-随机森林
代码# 鸢尾花数据分类-随机森林# 结果为6个随机森林得到的结果import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport matplotlib as mplfrom sklearn.ensemble import RandomForestClassifier# def iris_type(s):# it = {'Iris-setosa': 0, 'Iris-versicolor': 1原创 2020-08-20 07:42:59 · 1363 阅读 · 1 评论 -
机器学习基础算法19-决策树-鸢尾花数据集分类及决策树深度与过拟合
这里写目录标题决策树代码运行结果多个决策树决策树决策树(Decision Tree)是一种基本的分类与回归方法,当决策树用于分类时称为分类树,用于回归时称为回归树。主要介绍分类树。决策树由结点和有向边组成。结点有两种类型:内部结点和叶结点,其中内部结点表示一个特征或属性,叶结点表示一个类。决策树学算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得对各个子数据集有一个最好的分类的过程。根据信息增益准则的特征选择方法:对于训练数据集(或子集),计算其每个特征的信息增益,并比较它们的大原创 2020-08-20 07:39:55 · 466 阅读 · 0 评论 -
机器学习基础算法18- 决策树与随机森林-理论部分
目录一、决策树1.信息熵1)熵2)联合熵与条件熵3)相对熵4)互信息总结2.决策树学习算法1)信息增益-ID32)信息增益率-C4.53)CART-gini系数总结4)决策树的评价5)决策树过拟合二、Bagging与随机森林1.Bagging2.随机森林3.样本不均衡的常用处理方法4.样本间相似度5.特征重要度6.异常检测一、决策树1.信息熵1)熵2)联合熵与条件熵3)相对熵4)互信息总结互信息的另一种表述方式2.决策树学习算法1)信息增益-ID3符号含义原创 2020-08-17 17:02:02 · 154 阅读 · 0 评论 -
2020-08-17
目录代码实现运行结果代码实现import numpy as npfrom sklearn.linear_model import LinearRegression, RidgeCV, LassoCV, ElasticNetCVfrom sklearn.preprocessing import PolynomialFeaturesimport matplotlib.pyplot as pltfrom sklearn.pipeline import Pipeline# 处理warningfrom原创 2020-08-17 09:59:20 · 273 阅读 · 0 评论 -
机器学习基础算法16-波士顿房价预测-ElasticNet模型
目录ElasticNet模型介绍代码实验结果ElasticNet模型介绍ElasticNet又叫弹性网络回归,也就是L1-norm与L2-norm的组合。代码https://blog.csdn.net/qq_21904665/article/details/52315642实验结果import numpy as npimport matplotlib as mplimport matplotlib.pyplot as pltimport pandas as pd##数据分割为训练数据和测原创 2020-08-17 09:58:12 · 573 阅读 · 0 评论 -
机器学习基础算法15-回归实例-时间序列分析ARIMA
目录模型介绍实例介绍代码实验结果模型介绍https://blog.csdn.net/u012735708/article/details/82460962实例介绍给定某航班的乘客变化数据,使用ARIMA计算预测模型代码import pandas as pdimport numpy as npfrom statsmodels.tsa.arima_model import ARIMAimport matplotlib as mplimport matplotlib.pyplot as plt原创 2020-08-17 09:56:49 · 406 阅读 · 1 评论 -
机器学习基础算法14-回归实例-广告预测
目录1.广告预测-线性回归import numpy as npimport matplotlib as mplimport matplotlib.pyplot as pltimport pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LinearRegressionif __name__ == "__main__": path = 'A原创 2020-08-17 08:55:18 · 343 阅读 · 0 评论 -
机器学习基础算法13-Logistic回归-ROC和AUC分类模型评估-实例
目录一、模型评估介绍1.分类模型评估2.回归模型评估二、ROC和AUC1.理论知识2.ROC曲线分析3.TPR与FPR的计算过程三、实例1.实例12.实例23.实例3-鸢尾花数据集一、模型评估介绍1.分类模型评估2.回归模型评估二、ROC和AUC1.理论知识AUC概念理解: https://www.zhihu.com/question/39840928?from=profile_question_cardROC全称是“受试者工作特征”(Receiver Operating Characte原创 2020-08-15 16:08:34 · 1305 阅读 · 1 评论 -
机器学习基础算法12-回归
目录一、线性回归1.最小二乘法的本质2.最小二乘法之正规方程-θ解析过程3. L1正则化与L2正则化原理简述4.交叉验证广义逆矩阵与SVD5.梯度下降算法1)梯度方向2)三种梯度下降算法6.局部加权线性回归二、Logistic回归-二分类1.Logistic回归参数2.线性模型GLM3.对数线性模型4.Logistic回归的损失函数三、多分类:Softmax回归总结一、线性回归最重要且常见的回归假设:机器学习当中往往伴随着假设1.假设的内涵性:就是根据常理应该是正确的2.假设的简化性:假设只是接原创 2020-08-15 10:26:37 · 128 阅读 · 0 评论 -
机器学习基础算法11-鸢尾花数据集分析-PCA主成分分析与logistic回归(管道分析)
目录数据集介绍PCA主成分分析1.基本原理2.代码实现逻辑回归-管道-Pipeline代码模型泛化能力分析数据集介绍鸢尾花数据集有三个类别,每个类别有50个样本。其中一个类别与另外两个线性可分,另外两个不能线性可分。PCA主成分分析1.基本原理在统计学中,主成分分析PCA是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用于减少数据集的维数,原创 2020-08-11 17:25:51 · 2341 阅读 · 1 评论 -
机器学习算法基础10-计算范围内素数的五种算法
目录素数与合数的概念判断思路代码实现素数与合数的概念质数又称素数。一个大于1的自然数,除了1和它自身外,不能被其他自然数整除的数叫做质数;否则称为合数。判断思路在一般领域,对正整数n,如果用2到根号n之间的所有整数去除,均无法整除,则n为质数。质数大于等于2 不能被它本身和1以外的数整除代码实现# 计算范围内素数的概率(五种算法)# 素数与合数概念:质数又称素数。一个大于1的自然数,除了1和它自身外,不能被其他自然数整除的数叫做质数;否则称为合数。# 基本判断思路:在一般领域,对正整数n,如原创 2020-08-11 17:22:41 · 221 阅读 · 0 评论 -
机器学习算法基础9-Nagel-Schreckenberg交通流模型-公路堵车概率模型
目录场景介绍代码实现对车辆的位移进行限制,当大于水平的公路长度时,则认为是拐外后的位移场景介绍路面上有n辆车,以不同的速度向前行驶, 模拟堵车问题。有以下假设:1.假设某辆车的当前速度是v。2.若前方可见范围内没车,则它在下一秒的车速提高到v+1,直到达到规定的最高限速。3.若前方有车,前车的距离为d,且d < v,则它下 一秒的车速降低到d-1 。4.每辆车会以概率p随机减速v-1。代码实现import numpy as npfrom matplotlib.font_manager原创 2020-08-11 17:20:57 · 680 阅读 · 0 评论 -
机器学习算法基础8-模型保存与加载、逻辑回归、Kmeans(聚类)
目录一、模型的保存与加载二、逻辑回归-分类算法1.逻辑回归介绍2.逻辑回归损失函数3.逻辑回归API4.LogisticRegression回归案例-良/恶性乳腺癌肿瘤预测5.LogisticRegression总结6.判别模型与生成模型三、k-means-聚类-(非监督学习算法)1.k-means步骤2.聚类案例-用户对物品种类喜好分析3.Kmeans性能评估指标4.Kmeans性能评估指标API5.kmeans总结一、模型的保存与加载sklearn模型的加载与保存API:from sklearn原创 2020-08-10 11:21:19 · 1186 阅读 · 0 评论 -
机器学习算法基础7-线回归与岭回归
目录一、线回归1.线性回归的定义2.线性回归策略-损失函数-最小二乘法1)最小二乘法之正规方程2)最小二乘法之梯度下降3.sklearn线性回归正规方程、梯度下降API4.线性回归案例-波士顿房价数据集分析5.回归性能评估6.LinearRegression与SGDRegressor评估7.过拟合与欠拟合8.正则化二、岭回归一、线回归1.线性回归的定义回归问题的判定?-目标值连续线性回归:(迭代的算法)定义:线性回归通过一个或者多个自变量与因变量之间之间进行建模的回归分析。其中特点为一个或多个称为原创 2020-08-09 19:26:17 · 193 阅读 · 0 评论 -
机器学习算法基础6-阶段性总结
原创 2020-08-08 16:42:53 · 100 阅读 · 0 评论 -
机器学习算法基础5-决策树与随机森林
目录决策树与随机森林一、决策树1.决策树之信息论基础2.决策树的划分依据- 信息增益3.常见决策树使用的算法4.sklearn决策树API5.决策树案例-泰坦尼克号乘客生存分类6.决策树的优点与缺点二、随机森林-集成学习方法1.集成学习方法、随机森林的概念2.算法原理介绍3.集成学习API4. 随机森林调优-泰坦尼克号乘客生存分析5.随机森林的优点与缺点决策树与随机森林一、决策树1.决策树之信息论基础信息熵的概念案例:每猜一次给一块钱,告诉我是否猜对了,那么我需要掏多少钱才能知道谁是冠军?我可以原创 2020-08-08 16:41:25 · 341 阅读 · 0 评论 -
机器学习算法基础4-K-近邻算法、朴素贝叶斯算法、分类模型评估、模型的选择与调优3-sklearn数据集与估计器
目录一、K-近邻算法1.定义2.计算距离公式(欧氏距离)(重点)3.sklearn k-近邻算法API4.K-近邻算法实例-预测入住位置5.通过k-近邻算法对生物物种进行分类——鸢尾花(load_iris)6.k-近邻算法优缺点二、朴素贝叶斯算法1.概率基础2.朴素贝叶斯原理介绍-特征相互独立(条件独立)3.朴素贝叶斯算法案例-sklearn20类新闻分类4.朴素贝叶斯算法的优缺点三、分类模型评估1.概念2.分类模型评估API3.案例四、模型的选择与调优1.交差验证2.网格搜索-调超参数1)超参数搜索-网格原创 2020-08-07 17:22:30 · 435 阅读 · 0 评论 -
机器学习算法基础3-sklearn数据集与估计器
目录一、sklearn数据集1.数据集的划分2.sklearn数据集接口介绍API3.sklearn分类数据集4.sklearn回归数据集5.数据集进行分割二、转换器与预估器1.转换器2.估计器一、sklearn数据集1.数据集的划分机器学习一般的数据集会划分为两个部分:训练数据:用于训练,构建模型测试数据:在模型检验时使用,用于评估模型是否有效训练集与测试集的划分一般控制在75%、25%2.sklearn数据集接口介绍APIsklearn数据集划分API:sklearn.model_se原创 2020-08-06 14:39:42 · 199 阅读 · 0 评论 -
机器学习算法基础2-j机器学习算法分类以及开发流程
目录注意1.机器学习开发流程2.机器学习模型是什么3.机器学习算法判别依据4.机器学习算法分类1)监督学习分类问题回归问题2)无监督学习注意1.算法是核心,数据和计算是基础2.找准定位,大部分复杂模型的算法设计都是算法工程师在做,而我们分析很多的数据分析具体的业务应用常见的算法特征工程、调参数、优化3.我们应该怎么做学会分析问题,使用机器学习算法的目的,想要算法完成何种任务掌握算法基本思想,学会对问题用相应的算法解决学会利用库或者框架解决问题1.机器学习开发流程数据:1原创 2020-08-06 13:16:30 · 195 阅读 · 0 评论 -
机器学习算法基础1-数据的特征工程
这里写目录标题一、机器学习概述1.什么是机器学习2.为什么需要机器学习?3.机器学习的应用场景二、数据集的组成1.历史数据是什么格式2.可用数据集3.常用数据集数据的结构组成三、数据的特征工程1.特征工程是什么2.特征工程的意义3.scikit-learn库介绍4.数据的特征抽取1)字典特征抽取---类别数据2)文本特征抽取第一种方式:CountVectorizer-统计次数第二种方式:TfidfVectorizer--分类机器算法的重要依据5.数据的特征预处理1)特征预处理概念2)归一化3)标准化标准化总原创 2020-08-03 20:23:06 · 387 阅读 · 0 评论