机器学习
文章平均质量分 63
唐-import-某人
放笔记
展开
-
一.基础模块认知
一.数据集划分1.基础认知训练集: 用于估计模型验证集: 控制模型复杂度测试集: 检验最优模型的性能2.常用划分训练集占比验证集占比测试集占比50%25%25%3.k折交叉验证法使用范围:数据总量少[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iTmDjy1N-1621335807278)(:/c9dd29f12ad742f1af4851143399ba20)]配套实例一.datasets模块认知1.存有数据分析的经原创 2021-05-18 19:04:06 · 89 阅读 · 0 评论 -
二.构建并评估回归模型
常用回归类型回归名称适用范围算法介绍线性回归因变量与自变量是线性的最小二乘法非线性回归因变量与自变量是非线性的若可用线性求解,用线性。不能用非线性的最小二乘法Logistic回归因变量一般有bool取值用Logistic将因变量取值范围控制在0-1,取概率岭回归参与建模的自变量之间有多重共线性改进的最小二乘法主成分回归与建模的自变量之间有多重共线性消除共线性的最小二乘法一.常用回归函数模块名函数名算法名line原创 2021-05-18 19:06:57 · 155 阅读 · 0 评论 -
三.构建和评估聚类模型
一.聚类方法类别1.划分(分裂)方法K-平均值(K-MEANS算法)K-中心点(K-MEDOIDS算法)基于选择(CLARANS算法)2.层次分析方法平衡迭代规划和聚类(BIRCH算法)点聚类(CURE算法)动态模型(CHAMELEON算法)3.基于密度的方法基于密度连接区域密度分布对象排序识别4. 基于网络的方法统计信息网络(STING算法)聚类高维空间(CLIOUE算法)小波变化(WAVE-CLUSTER)二.模块1.聚类(cluster)函原创 2021-05-18 19:04:52 · 378 阅读 · 0 评论 -
四.构建并评估分类模型
物体识别对象检测常用分类算法模块名称函数名称算法名称linear_modelLogisticRegression逻辑斯蒂回归svmSVC支持向量机neighborsKNeighborsClassifierK最近领分类naive_bayesGaussianNB高斯朴素贝叶斯treeDecisionTreeClassifier分类决策树ensembleRandomForestClassifier随机森林分类ensemble原创 2021-05-18 19:06:11 · 77 阅读 · 0 评论 -
五.分类:决策树问题
一.决策树结构1案例分析例题树方案二.要点认知1.纯度认知确样本中没有两项属于同一类样本中所有项都属于同一类如图可知,所有的点属于地球的同一类。如图可知,各个国的点不属于非本国的同一类。2.定样本集的拆分属性样本集拆分的分类结果尽可能的单一,多数类占优衡量集和的纯度,依照纯度进行拆分3.纯度量化基尼系数(Gini总体发散性)CART熵(entropy,信息量,近0则优)明确信息消耗的多少信息增益 (Gain)ID3对纯度提升的程度原创 2021-05-18 19:07:42 · 207 阅读 · 0 评论 -
六_1.神经网络构建
一.认识神经网络1.神经元认知(1)神经元传输步骤步骤1: 树突接触刺激,产生电流步骤2: 判断并传输电流(判断条件: 电流强度)若电流强度达到阈值,则传输。若电流强度未达到阈值,不传输(2)神经元传输过程2.转换数学模型步骤1: 传入数据 (x1,x2,x3…xi)步骤2: 对传入数据进行加权求和步骤3: 对求和数据减偏执项步骤4: 输出或传输给其他神经元,yi二.神经网络结构1.误差值三.网络训练流程步骤1: 在(0,1)随机初始化所有链接值和阈原创 2021-05-18 19:10:33 · 110 阅读 · 0 评论 -
六-2.Sklearn中的神经网络
官网参数sklearn.neural_network.MLPClassifier参数认知参数参数作用参数接收值默认hidden_layer_sizes隐藏层中的神经元数量int100activation隐藏层的激活函数’identity’: 无操作激活,用于实现线性瓶颈,返回f(x)= x**‘logistic’????* logistic Sigmoid函数,返回f(x)= 1 / (1 + exp(x))。‘tanh’: 双曲tan函数,返回f(x)= t原创 2021-05-18 19:11:14 · 580 阅读 · 0 评论 -
七.分类:最近邻算法算法
KNN: K-近邻算法一.算法解释数据集的样本空间中,总有k个最相似的样本。其中大多数属于与一个类比时,则该样本属于该类比案例: 客户流失预测,欺诈侦测1.计算步骤1.算距离: 给定测试对象,计算其到训练集中所有样本的距离2.排序: 按距离进行排序3.选k点: 选取当前距离最小的k个点4.算频率: 计算k个点的频率5.做分类: 根据频率最高的k点进行当前样本进行的分类2.算法特性模型简单,计算开销大,可解释性差对测试样本进行分类时才去找K个邻近适用于稀有问题分类(占比级底的原创 2021-05-18 19:11:46 · 665 阅读 · 0 评论 -
八.分类:朴素贝叶斯
一.贝叶斯1.公式贝叶斯公式: P(AB)=P(A)*P(B|A)=P(B)*P(A|B)贝叶斯公式推导:P(A|B)=P(A)*P(B|A)/P(B)P(A|B)=P(AB)/P(B)二.朴素贝叶斯中的朴素数据探查: 有8+1的个维度p(x1x2…xn|y)=p(x1|y)*p(x2|y)…*p(xn|y)1.公式推导P(x)相同2.结果推导h (好瓜=是)= P (好瓜=是) x P(青绿|是) x P(蜷缩|是) x P(浊响|是) x P(清晰|是) x P(凹陷|原创 2021-05-18 19:12:35 · 57 阅读 · 0 评论 -
九-1.聚类分析
聚类通常作为其他数据挖掘或建模的前奏一.特征认知1.有监督无监督分类: 有监督学习(有标签学习)数据特征聚类: 无监督学习(没有标签)数据特征2.聚类概念聚类是把各不相同的个体分割为有更多相似性子集合的工作。聚类生成的子集合称为簇3.聚类要求生成的簇内部的任意两个对象之间具有较高的相似度属于不同簇的两个对象间具有较高的相异度二.相似度衡量度量关键: 距离1.变量分类1.定量变量:连续变量2.定性变量: 性质上的差异:有序变量,名义变量2.相似系数原创 2021-05-18 19:15:08 · 1423 阅读 · 0 评论 -
九-2.聚类自构代码
一.构建K-means1.导数据from sklearn.datasets import load_irisimport pandas as pdimport numpy as np a=load_iris()data=pd.DataFrame(a['data'],a['target'],a['frame'])data.reset_index(inplace=True)data.columns=['分类','萼片长度(cm)','萼片宽度(cm)','花瓣长度(cm)','花瓣宽度(cm)'原创 2021-05-25 17:06:15 · 50 阅读 · 0 评论 -
十,支持向量机
一.间隔与支持向量最优超平面(直线): 对训练样本局部扰动的“容忍性”最好,即最具鲁棒性。1.最优平面公式推导最优超平面: WTXi+b=0正类: WTXi+b≥+1,yi=+1负类: WTXi+b≥-1,yi=-1最小距离推导γ=2W12∗W22=2∣∣W∣∣γ=\frac{2}{\sqrt{{W_1^2}*{W_2^2}}}=\frac{2}{||W||}γ=W12∗W222=∣∣W∣∣2W1=(WTXi+b=−1)−(WTXi+b=0)W_1=(W^TX_i+b=-原创 2021-05-25 17:07:44 · 355 阅读 · 0 评论