机器学习
文章平均质量分 73
PearNotBear
这个作者很懒,什么都没留下…
展开
-
信用卡分级Spark,hadoop
import warningsimport matplotlib.pyplot as pltimport numpy as npimport pandas as pdimport seaborn as snsplt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus']=Falsewarnings.filterwarnings("ignore")pd.set_option('display.max_原创 2022-01-10 17:25:26 · 947 阅读 · 0 评论 -
构建信用分级卡 分箱法
信用分级卡分箱原创 2022-01-10 16:39:26 · 570 阅读 · 0 评论 -
单变量线性回归预测幸福度
单变量线性回归来通过GDP预测国家的幸福度环境是jupyter notebook,python3.7导库import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom homemade.linear_regression import LinearRegression导入数据,并输出看一下数据状态,有时还需要看看有没有缺失值异常值,做一下数据清洗data = pd.read_csv('F:/MLdata/d原创 2021-09-01 15:48:43 · 881 阅读 · 1 评论 -
机器学习(四) 决策树
算法原理决策树是基于树结构对问题进行决策或判定的过程。决策过程中提出的判定问题(内部节点)是对某个属性的“测试”,每个测试的结果可以导出最终结论(叶节点)或导出进一步判定问题(下一层内部节点,其考虑范围是在上次决策结果的限定范围之内)。核心是选取划分条件(划分属性)。最终目的样本划分越“纯”越好。常见决策树算法ID3决策树信息熵信息熵可以度量随机变量X的不确定性,信息熵越大越不确定,可转换到度量样本集合纯度,信息熵越小样本集合的纯度越高。样本集合(D)中第(k)类样本所占原创 2021-07-23 01:54:07 · 1368 阅读 · 0 评论 -
ML(三) 线性模型3.4 线性判别分析
线性判别分析(Linear Discriminant Analysis,LDA)笔记部分二分类LDA模型原理给定训练样法将样例投影到一条直线上,使得:同类样例的投影点尽可能接近;异类样例投影点尽可能能远离。在对新样本进行分类时,将其投影到该直线上,再根据投点的位置来确定样本的类别。如下图所示:对应到机器学习三要素中分别为:模型:f(x)=wTxf(\mathbf x)=\mathbf w^T\mathbf xf(x)=wTx。策略:经投影的类内方差尽可能小;经投影的异原创 2021-07-20 01:36:49 · 285 阅读 · 0 评论 -
ML(三) 线性模型3.3
3.3 对数几率回归笔记部分线性分类模型单调阶跃函数(unit-step function) Heaviside函数不连续、不可微,若预测值大于零就判为正例,小于零则判为反例,预测值为临界值则可任意判别。sigmoid函数——对数几率函数(logistic function)sigmoid函数是形似S的函数。对数几率函数是sigmoid函数的一种,单调可微,其表达式为:与单调阶跃函数的图示关系如下图所示:几率和对数几率若将yyy视为样本作为正例的可能性,则1−y1-y1−y是其反原创 2021-07-20 00:53:07 · 171 阅读 · 0 评论 -
ML(三)线性模型
3.1线性回归引言在生活中经常会遇到的一些问题,比如犯罪现场留下的鞋码大概估计嫌疑人的身高;又比如通过一个程序员的发际线高度来判断这个程序员的计算机水平;再比如买西瓜的时候,通过某个西瓜色泽、根蒂、敲声等来判断西瓜是好瓜还是坏瓜等等。一个吃过或者见过很多不同类型西瓜的吃瓜人,往往可以根据鉴瓜经验去判断西瓜的好坏。把上面过程抽象出来就是:利用一个已经训练好的带参(θ)模型M(有经验的吃瓜人)根据样本的特征(西瓜色泽、根蒂、敲声等)预测样本的目标值(好瓜/坏瓜)。那么要怎么成为一个有经验的吃瓜原创 2021-07-20 00:34:56 · 547 阅读 · 0 评论 -
机器学习(学习笔记)二 模型评估与选择(上)
模型评估与选择(上)先画思维导图一、经验误差与过拟合误差:模型对样本的预测结果和样本的真实输出的差异称为 误差。给定一个数据集,将其分割为训练集和测试集训练误差 (Training Error)模型在训练集上的误差称为 训练误差测试误差 (Testing Error)模型在测试集上的误差称为 测试误差1.1 欠拟合 (Underfitting) 和 过拟合 (Overfitting)我们想要的是得到的模型既有小的训练误差,也有小的测试误差,但很多时候事与愿违,造成了模型的欠拟合原创 2021-07-14 04:26:11 · 357 阅读 · 0 评论 -
机器学习(学习笔记)一
0.导学机器学习:通过计算的手段,利用经验来改善自身性能。人工智能:让机器变得像人一样拥有智能的学科深度学习:神经网络类的机器学习算法在未接触之前,许多人都会觉得机器学习是一门高深的内容,实际上它与人在不断试错尝试中对自己进行反省改进,进而找到事物之中的规律是一个道理。只不过它能在短时间内进行比人多的多的多的尝试,进而能在许多计算领域得到广泛的应用。简单来说,机器学习就是让计算机能像人一样能从数据中学习出规律的一类算法1.绪论先简单的画一下绪论的思维导图1.1 基本术语数原创 2021-07-14 01:39:00 · 649 阅读 · 1 评论