机器学习基础
Lin叮当
小白的代码日常
展开
-
机器学习基础DAY8
第八章 线性回归先从定义说起:误差大小:######sklearn线性回归正规方程、梯度下降API:sklearn.linear_model.LinearRegression正规方程普通最小二乘线性回归coef_:回归系数sklearn.linear_model.SGDRegressor梯度下降通过使用SGD最小化线性模型coef_:回归系数回归性能评估:MSE两种方法的比较:特点:线性回归器是最为简单、易用的回归模型。从某种程度上限制了使用,尽管如此,在不知道特征之间关原创 2020-12-18 15:31:29 · 80 阅读 · 0 评论 -
机器学习基础DAY7
第七章 决策树决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-then结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法1.信息增益:特征A对训练数据集D的信息增益g(D,A),定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵H(D|A)之差,即公式为:注:信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度信息熵的计算:条件熵的计算:######常见决策树使用的算法:####ID3信息增益 最大的准则####C4.5信息增益比 最大原创 2020-12-18 15:30:50 · 134 阅读 · 0 评论 -
机器学习基础DAY6
第六章 朴素贝叶斯算法原创 2020-12-10 09:52:50 · 131 阅读 · 0 评论 -
机器学习基础DAY5
第五章,K近邻算法定义:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。来源:KNN算法最早是由Cover和Hart提出的一种分类算法。两个样本的距离可以通过如下公式计算,又叫欧式距离。比如说,a(a1,a2,a3),b(b1,b2,b3),那么它们之间的欧氏距离就用下图方法计算:######K近邻算法API:sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorith原创 2020-12-05 14:05:57 · 114 阅读 · 0 评论 -
机器学习基础DAY4
第四章 机器学习概述机器学习一般的数据集会划分为两个部分:训练数据:用于训练,构建模型测试数据:在模型检验时使用,用于评估模型是否有效训练集与测试集占比一般是(0.8,0.2),(0.7,0.3),(0.75,0.25),其中最后一种用的最多...原创 2020-12-04 07:21:14 · 178 阅读 · 0 评论 -
机器学习基础DAY3
第三章 数据降维方式:1.特征选择 2.主成分分析1.特征选择(1)原因:冗余:部分特征的相关度高,容易消耗计算性能噪声:部分特征对预测结果有负影响(2)定义:特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后可以改变值、也不改变值,但是选择后的特征维数肯定比选择前小,毕竟我们只选择了其中的一部分特征。(3)主要方法(三大武器):1,Filter(过滤式):VarianceThreshold######API:sklearn.feature_sel原创 2020-12-03 14:42:15 · 84 阅读 · 0 评论 -
机器学习基础DAY2
第二章 数据特征预处理1.定义:通过特定的统计方法(数学方法)将数据转换成算法要求的数据2.数值型数据:标准缩放:(1)归一化(2)标准化(3)缺失值类别型数据:one-hot编码时间类型:时间的切分(1)归一化特点:通过对原始数据进行变换把数据映射到(默认为[0,1])之间注:作用于每一列,max为一列的最大值,min为一列的最小值,那么X’’为最终结果,mx,mi分别为指定区间值默认mx为1,mi为0sklearn 关于特征处理的API:sklearn. preprocess原创 2020-11-05 08:59:43 · 210 阅读 · 0 评论 -
机器学习基础DAY1
第一章 特征工程与文本特征提取1.数据集的构成机器学习中的数据集大多以CSV的格式存储,而不是放在MYSQL里(原因:1性能瓶颈,读取速度不够快,2格式不符合),再者pandas 和numpy 功能强大,能够真正实现多线程。pandas:一个数据读取非常方便以及基本的处理格式的工具sklearn:对于特征的处理提供了强大的接口常用的公开数据集特点:数据集结构:特征值+目标值注意:有的数据集可以没有目标值2.特征工程的定义定义:特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的原创 2020-11-03 19:31:41 · 130 阅读 · 0 评论