康为-CSDN博客

转载 datawhale-sklearn组队学习-task07

集成学习原理集成学习 (ensemble learning) 通过构建并结合多个学习器来完成学习任务，有时也被称为多分类器系统(multi-classifier system) 、基于委员会的学习(committee-based learnin）等。Adaboost是一种boosting算法。Boosting 是一族可将弱学习器提升为强学习器的算法.这族算法的工作机制类似:先从初始训练集训练出一个基学习器，再根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续受到更多关注，

2022-01-02 23:20:30 107

转载 datawhale-sklearn组队学习-task06

主成分分析（PCA）1.原理和代码实战引入数据集import sysfrom pathlib import Pathcurr_path = str(Path().absolute()) # 当前文件所在绝对路径parent_path = str(Path().absolute().parent) # 父路径sys.path.append(parent_path) # 添加路径到系统路径from Mnist.load_data import load_local_mnistfrom sk

2021-12-30 19:55:37 119

转载 datawhale-sklearn组队学习-task05

K-means聚类1.原理2.sklearn代码实战2.1生成数据集import matplotlib.pyplot as pltfrom sklearn.datasets import make_blobsfrom sklearn.cluster import KMeans# make_blobs：生成聚类的数据集# n_samples：生成的样本点个数，n_features：样本特征数，centers：样本中心数# cluster_std：聚类标准差，shuffle：是否打乱数据，

2021-12-27 20:11:41 120

转载 datawhale-sklearn组队学习-task04

决策树决策树模型就是数据结构中的树，根据特征选择依据(信息熵)等划分特征，生成决策树，然后剪枝提高泛化能力，可分类可回归，代表算法有ID3，C4.5和CART优缺点优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据。缺点：可能会产生过度匹配问题适用数据类型：数值型和标称型加载数据集iris数据集鸢尾花（iris）数据集是一个经典数据集，在统计学习和机器学习领域都经常被用作示例。数据集内包含 3 类共 150 条记录，每类各 50 个数据，每条记录都有 4 项

2021-12-24 22:42:56 165

转载 datawhale-sklearn组队学习-task03

贝叶斯分类(朴素贝叶斯）理论贝叶斯分类器的理论框架基于贝叶斯决策论（Bayesian decision theory），而贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说，在所有相关概率都已知的理想情形下，贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。具体来说，若目标是最小化分类错误率，则我们要找的就是：对于每个样本 x，选择能使后验概率 P（C | x）最大的类别标记。而基于贝叶斯公式来估计后验概率 P(C I x) 的主要用难在于:类条件概率 P(x I c) 是所有

2021-12-21 22:40:30 122

转载 datawhale-sklearn组队学习-task02

支持向量机(Support Vector Machine, SVM)1. 线性SVM公式推导参见西瓜书。import numpy as npimport matplotlib.pyplot as pltfrom sklearn import svmdata = np.array([ [0.1, 0.7], [0.3, 0.6], [0.4, 0.1], [0.5, 0.4], [0.8, 0.04], [0.42, 0.6], [0.9,

2021-12-18 20:58:36 110

转载 datawhale-sklearn组队学习-task01

一元线性回归1.1 数据生成生成数据，适当给数据增加一些扰动来检验线性回归的性能import numpy as npimport matplotlib.pyplot as plt def true_fun(X): # 真实函数 return 1.5*X + 0.2np.random.seed(0) # 设置随机种子#随机种子的目的是为了保证每次实验数据保持一致n_samples = 30 # 设置采样数据点的个数'''生成随机数据作为训练集，并且加一些噪声'''X_train

2021-12-15 20:24:18 110

原创 2021-11-15

机器学习西瓜书1-2第1章绪论1. 1引言1. 2基本术语合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入第1章绪论1. 1引言本书利用西瓜的一系列特征（x）以及西瓜的标记（y这个结果也可能没有）通过不同的模型来学习得到一个专门判断

2021-11-16 16:05:10 639

the_anmuxi的博客