ZShiJ
软件工程本科,大数据与机器学习方向(欢迎大家私信)
展开
-
机器学习算法 —— 基于LDA手写数字分类
线性判别模型(LDA)在模式识别领域(比如人脸识别等图形图像识别领域)中有非常广泛的应用。LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的思想可以用一句话概括,就是“投影后类内方差最小,类间方差最大”。我们要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。原创 2024-07-23 09:00:00 · 170 阅读 · 0 评论 -
机器学习算法 —— 线性判别模型(LDA)
线性判别模型(LDA)在模式识别领域(比如人脸识别等图形图像识别领域)中有非常广泛的应用。LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的思想可以用一句话概括,就是“投影后类内方差最小,类间方差最大”。我们要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。原创 2024-07-23 07:00:00 · 368 阅读 · 0 评论 -
机器学习算法 —— 基于BP神经网络的乳腺癌分类
BP(Back Propagation)网络是1986年由Rumelhart和McCelland为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入-输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小。BP神经网络模型拓扑结构包括输入层(input)、隐层(hide layer)和输出层(output layer)。原创 2024-07-16 10:00:00 · 167 阅读 · 0 评论 -
机器学习算法 —— BP神经网络
BP(Back Propagation)网络是1986年由Rumelhart和McCelland为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入-输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小。BP神经网络模型拓扑结构包括输入层(input)、隐层(hide layer)和输出层(output layer)。原创 2024-07-16 08:00:00 · 297 阅读 · 0 评论 -
机器学习算法 —— LightGBM
本次我们选择英雄联盟数据集进行LightGBM的场景体验。英雄联盟是2009年美国拳头游戏开发的MOBA竞技网游,在每局比赛中蓝队与红队在同一个地图进行作战,游戏的目标是破坏敌方队伍的防御塔,进而摧毁敌方的水晶枢纽,拿下比赛的胜利。现在共有9881场英雄联盟韩服钻石段位以上的排位比赛数据,数据提供了在十分钟时的游戏状态,包括击杀数、死亡数、金币数量、经验值、等级……参考项目:机器学习系列入门系列[七]:基于英雄联盟数据集的LightGBM的分类预测。原创 2024-07-09 08:00:00 · 487 阅读 · 0 评论 -
机器学习算法 —— XGBoost
首先需要导入一些基础的函数库包括:numpy (Python进行科学计算的基础软件包),pandas(pandas是一种快速,强大,灵活且易于使用的开源数据分析和处理工具),matplotlib和seaborn绘图。一种最简单的方法是把所有的相同类别的特征编码成同一个值,例如女=0,男=1,狗狗=2,所以最后编码的特征值是在[0,特征数量-1]这里我们采用网格调参,它的基本思想是穷举搜索:在所有候选的参数选择中,通过循环遍历,尝试每一种可能性,表现最好的参数就是最终的结果。这个值也是用来避免过拟合的。原创 2024-07-09 07:00:00 · 389 阅读 · 0 评论 -
机器学习算法 —— 基于penguins_raw数据集的决策树
决策树是一种常见的分类模型,在金融风控、医疗辅助诊断等诸多行业具有较为广泛的应用。决策树的核心思想是基于树结构对数据进行划分,这种思想是人类处理问题时的本能方法。例如在婚恋市场中,女方通常会先询问男方是否有房产,如果有房产再了解是否有车产,如果有车产再看是否有稳定工作……最后得出是否要深入了解的判断。原创 2024-07-02 08:00:00 · 179 阅读 · 0 评论 -
机器学习算法 —— 决策树
决策树是一种常见的分类模型,在金融风控、医疗辅助诊断等诸多行业具有较为广泛的应用。决策树的核心思想是基于树结构对数据进行划分,这种思想是人类处理问题时的本能方法。例如在婚恋市场中,女方通常会先询问男方是否有房产,如果有房产再了解是否有车产,如果有车产再看是否有稳定工作……最后得出是否要深入了解的判断。原创 2024-07-02 07:00:00 · 343 阅读 · 0 评论 -
机器学习算法 —— 基于支持向量机的分类预测
SVM优缺点优势:1、适用性广泛:SVM支持向量机在解决分类和回归问题上表现出色,可应用于各种数据类型和领域,例如文本分类、图像识别和生物信息学等。2、鲁棒性强:SVM支持向量机对于训练数据中的噪声和异常点具有一定的鲁棒性,可以有效地处理输入数据中的噪声。3、可避免陷入局部最优解:由于SVM支持向量机使用了结构风险最小化原则,它能够更好地避免陷入局部最优解,并且具有较低的泛化误差。原创 2024-06-25 08:00:00 · 116 阅读 · 0 评论 -
机器学习算法 —— 支持向量机
SVM优缺点优势:1、适用性广泛:SVM支持向量机在解决分类和回归问题上表现出色,可应用于各种数据类型和领域,例如文本分类、图像识别和生物信息学等。2、鲁棒性强:SVM支持向量机对于训练数据中的噪声和异常点具有一定的鲁棒性,可以有效地处理输入数据中的噪声。3、可避免陷入局部最优解:由于SVM支持向量机使用了结构风险最小化原则,它能够更好地避免陷入局部最优解,并且具有较低的泛化误差。原创 2024-06-25 07:00:00 · 366 阅读 · 0 评论 -
机器学习算法 —— K近邻(KNN回归)
k近邻方法是一种惰性学习算法,可以用于回归和分类,它的主要思想是投票机制,对于一个测试实例x, 我们在有标签的训练数据集上找到和最相近的k个数据,用他们的label进行投票,分类问题则进行表决投票,回归问题使用加权平均或者直接平均的方法。knn算法中我们最需要关注两个问题:k值的选择和距离的计算。kNN中的k是一个超参数,需要我们进行指定,一般情况下这个k和数据有很大关系,都是交叉验证进行选择,但是建议使用交叉验证的时候,k∈[2,20],使用交叉验证得到一个很好的k值。原创 2024-06-18 08:00:00 · 160 阅读 · 0 评论 -
机器学习算法 —— K近邻(KNN分类)
k近邻方法是一种惰性学习算法,可以用于回归和分类,它的主要思想是投票机制,对于一个测试实例x, 我们在有标签的训练数据集上找到和最相近的k个数据,用他们的label进行投票,分类问题则进行表决投票,回归问题使用加权平均或者直接平均的方法。knn算法中我们最需要关注两个问题:k值的选择和距离的计算。kNN中的k是一个超参数,需要我们进行指定,一般情况下这个k和数据有很大关系,都是交叉验证进行选择,但是建议使用交叉验证的时候,k∈[2,20],使用交叉验证得到一个很好的k值。原创 2024-06-18 07:00:00 · 313 阅读 · 0 评论 -
机器学习算法 —— 贝叶斯分类之模拟离散数据集
朴素贝叶斯法 = 贝叶斯定理 + 特征条件独立。朴素贝叶斯算法(Naive Bayes, NB) 是应用最为广泛的分类算法之一。它是基于贝叶斯定义和特征条件独立假设的分类器方法。由于朴素贝叶斯法基于贝叶斯公式计算得到,有着坚实的数学基础,以及稳定的分类效率。NB模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。当年的垃圾邮件分类都是基于朴素贝叶斯分类器识别的。贝叶斯公式是英国数学家提出的一个数据公式:p(A,B):表示事件A和事件B同时发生的概率。原创 2024-06-11 08:00:00 · 163 阅读 · 0 评论 -
机器学习算法 —— 朴素贝叶斯
朴素贝叶斯法 = 贝叶斯定理 + 特征条件独立。朴素贝叶斯算法(Naive Bayes, NB) 是应用最为广泛的分类算法之一。它是基于贝叶斯定义和特征条件独立假设的分类器方法。由于朴素贝叶斯法基于贝叶斯公式计算得到,有着坚实的数学基础,以及稳定的分类效率。NB模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。当年的垃圾邮件分类都是基于朴素贝叶斯分类器识别的。贝叶斯公式是英国数学家提出的一个数据公式:p(A,B):表示事件A和事件B同时发生的概率。原创 2024-06-11 07:00:00 · 328 阅读 · 0 评论 -
机器学习算法 —— 基于鸢尾花数据集的逻辑回归分类
逻辑回归(Logistic regression,简称LR)虽然其中带有"回归"两个字,但逻辑回归其实是一个分类模型,并且广泛应用于各个领域之中。虽然现在深度学习相对于这些传统方法更为火热,但实则这些传统方法由于其独特的优势依然广泛应用于各个领域中。而对于逻辑回归而且,最为突出的两点就是其模型简单和模型的可解释性强。优点:实现简单,易于理解和实现;计算代价不高,速度很快,存储资源低;缺点:容易欠拟合,分类精度可能不高。原创 2024-06-05 10:00:00 · 516 阅读 · 0 评论 -
机器学习算法 —— 逻辑回归
逻辑回归(Logistic regression,简称LR)虽然其中带有"回归"两个字,但逻辑回归其实是一个分类模型,并且广泛应用于各个领域之中。虽然现在深度学习相对于这些传统方法更为火热,但实则这些传统方法由于其独特的优势依然广泛应用于各个领域中。而对于逻辑回归而且,最为突出的两点就是其模型简单和模型的可解释性强。优点:实现简单,易于理解和实现;计算代价不高,速度很快,存储资源低;缺点:容易欠拟合,分类精度可能不高。原创 2024-06-05 08:00:00 · 435 阅读 · 0 评论