机器学习
文章平均质量分 81
RIKI_1
这个作者很懒,什么都没留下…
展开
-
【机器学习笔记】 15 机器学习项目流程
数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。原创 2024-02-19 22:50:36 · 475 阅读 · 0 评论 -
【机器学习笔记】14 关联规则
关联规则(Association Rules)反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么,其中一个事物就能够通过其他事物预测到。关联规则可以看作是一种IF-THEN关系。假设商品A被客户购买,那么在相同的交易ID下,商品B也被客户挑选的机会就被发现了。有没有发生过这样的事:你出去买东西,结果却买了比你计划的多得多的东西?这是一种被称为冲动购买的现象,大型零售商利用机器学习和Apriori算法,让我们倾向于购买更多的商品。原创 2024-02-19 22:08:20 · 887 阅读 · 0 评论 -
【机器学习笔记】13 降维
维数灾难(Curse of Dimensionality):通常是指在涉及到向量的计算的问题中,随着维数的增加,计算量呈指数倍增长的一种现象。在很多机器学习问题中,训练集中的每条数据经常伴随着上千、甚至上万个特征。要处理这所有的特征的话,不仅会让训练非常缓慢,还会极大增加搜寻良好解决方案的困难。这个问题就是我们常说的维数灾难。维数灾难涉及数字分析、抽样、组合、机器学习、数据挖掘和数据库等诸多领域。原创 2024-02-19 21:33:43 · 1126 阅读 · 1 评论 -
【机器学习笔记】12 聚类
K-means算法是一种无监督学习方法,是最普及的聚类算法,算法使用一个没有标签的数据集,然后将数据聚类成不同的组。K-means算法具有一个迭代过程,在这个过程中,数据集被分组成若干个预定义的不重叠的聚类或子组,使簇的内部点尽可能相似,同时试图保持簇在不同的空间,它将数据点分配给簇,以便簇的质心和数据点之间的平方距离之和最小,在这个位置,簇的质心是簇中数据点的算术平均值。闵可夫斯基距离(Minkowski distance)𝑝取1或2时的闵氏距离是最为常用的 𝑝𝑝 = 2即为欧氏距离。原创 2024-02-17 17:27:24 · 978 阅读 · 0 评论 -
【机器学习笔记】11 支持向量机
支 持 向 量 机 是 一 类 按 监 督 学 习 ( supervisedlearning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier),其决策边界是对学习样本求解的最大边距超平面(maximum-margin hyperplane)。与逻辑回归和神经网络相比,支持向量机,在学习复杂的非线性方程时提供了一种更为清晰,更加强大的方式。原创 2024-02-17 16:26:58 · 757 阅读 · 1 评论 -
【机器学习笔记】10 人工神经网络
1943年,心理学家McCulloch和逻辑学家Pitts建立神经网络的数学模型,MP模型每个神经元都可以抽象为一个圆圈,每个圆圈都附带特定的函数称之为激活函数,每两个神经元之间的连接的大小的加权值即为权重。1960年代,人工网络得到了进一步地发展感知机和自适应线性元件等被提出。M.Minsky仔细分析了以感知机为代表的神经网络的局限性,指出了感知机不能解决非线性问题,这极大影响了神经网络的研究。原创 2024-02-17 15:29:59 · 1228 阅读 · 1 评论 -
【机器学习笔记】 9 集成学习
从训练集中进行子抽样组成每个基模型所需要的子训练集,对所有基模型预测的结果进行综合产生最终的预测结果:假设一个班级每个人的成绩都不太好,每个人单独做的考卷分数都不高,但每个人都把自己会做的部分做了,把所有考卷综合起来得到成绩就会比一个人做的高。原创 2024-02-17 15:02:24 · 1158 阅读 · 1 评论 -
【机器学习笔记】8 决策树
决策树是从训练数据中学习得出一个树状结构的模型。决策树属于判别模型。决策树是一种树状结构,通过做出一系列决策(选择)来对数据进行划分,这类似于针对一系列问题进行选择。决策树的决策过程就是从根节点开始,测试待分类项中对应的特征属性,并按照其值选择输出分支,直到叶子节点,将叶子节点的存放的类别作为决策结果。以下小美相亲的例子就是决策树决策树算法是一种归纳分类算法,它通过对训练集的学习,挖掘出有用的规则,用于对新数据进行预测。决策树算法属于监督学习方法。原创 2024-02-16 23:12:06 · 1246 阅读 · 1 评论 -
【机器学习笔记】7 KNN算法
欧几里得度量(Euclidean Metric)(也称欧氏距离)是一个通常采用的距离定义,指在𝑚维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。原创 2024-02-16 22:02:43 · 1215 阅读 · 0 评论 -
【机器学习笔记】 6 机器学习库Scikit-learn
Scikit-learn是基于NumPy、 SciPy和 Matplotlib的开源Python机器学习包,它封装了一系列数据预处理、机器学习算法、模型选择等工具,是数据分析师首选的机器学习工具包。自2007年发布以来,scikit-learn已经成为Python重要的机器学习库了,scikit-learn简称sklearn,支持包括四大机器学习算法。还包括了。原创 2024-02-16 18:15:14 · 2068 阅读 · 1 评论 -
【机器学习笔记】5 机器学习实践
帮助我们训练模型,简单的说就是通过训练集的数据让我们确定拟合曲线的参数。:也叫做开发集( Dev Set ),用来做模型选择(model selection),即做模型的最终优化及确定的,用来辅助我们的模型的构建,即训练超参数,;: 为了测试已经训练好的模型的精确度。三者划分:训练集、验证集、测试集,区别与数据量有关机器学习:60%,20%,20%;70%,10%,20%(不划验证集就75%,25%)深度学习:98%,1%,1% (假设百万条数据)原创 2024-02-15 17:19:14 · 711 阅读 · 0 评论 -
【机器学习笔记】4 朴素贝叶斯
贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。朴素贝叶斯分类是这一类算法中最简单的较为常见的算法。根据以往经验和分析得到的概率。我们用𝑃(𝑌)来代表在没有训练数据前假设𝑌拥有的初始概率。根据已经发生的事件来分析得到的概率。以𝑃(𝑌|𝑋)代表假设𝑋成立的情下观察到𝑌数据的概率,因为它反映了在看到训练数据𝑋后𝑌成立的置信度。是指在多元的概率分布中多个随机变量分别满足各自条件的概率。𝑋与𝑌的联合概率表示为𝑃( 𝑋, 𝑌) 、 𝑃(𝑋𝑌) 或𝑃(𝑋∩𝑌)。原创 2024-02-15 16:24:35 · 1174 阅读 · 0 评论 -
【机器学习笔记】3 逻辑回归
输入变量可以是离散的也可以是连续的。原创 2024-02-15 15:47:02 · 902 阅读 · 0 评论 -
【机器学习笔记】2 线性回归
回归可以用1和0来表示二分类问题可以用1和0来表示。原创 2024-01-27 19:24:04 · 1005 阅读 · 2 评论 -
【机器学习笔记】1 机器学习概念
在强化学习方式下,输入数据作为对模型的反馈,不像监督模型那样,输入数据仅仅是作为一个检查模型对错的方式,在强化学习下,输入数据直接反馈到模型,模型必须对此立刻作出调整。其中,𝑥是输入,𝑦是输出。其中,𝑥是输入,𝑧是输出。:在半监督学习方式下,输入数据部分被标识,部分没有被标识,这种学习模型可以用来进行预测,但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。:在非监督学习方式下,输入数据没有被标识,这种学习模型可以用来进行预测,但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。原创 2024-01-25 21:16:32 · 1042 阅读 · 0 评论 -
【机器学习笔记】0 基础知识之python基础
注:本文内容仅为个人学习笔记,教程为黄海广老师主讲的机器学习入门系列,课程链接(,有习题和证书)课程资源(pdf版本课件和代码)公布在也可以在b站观看(观看方便,但无课后习题和证书)本笔记仅简单记录关于python需要熟悉掌握的内容点,不详细展开记录。原创 2024-01-25 16:22:33 · 972 阅读 · 0 评论 -
【机器学习笔记】0 背景知识之数学基础
在数学公式原理部分经常用到,原创 2024-01-23 18:05:56 · 406 阅读 · 1 评论 -
【机器学习笔记】假设空间和归纳偏好
著名的“奥卡姆剃刀”原则认为“若有多个假设与观察一致,则选最简单的那个”,但是何为“简单”便见仁见智了,如果认为函数的幂次越低越简单,则此时一元线性回归算法更好,如果认为幂次越高越简单,则此时多项式回归算法更好,因此该方法其实并不“简单”,所以并不常用,而最常用的方法则是基于模型在测试集上的表现来评判模型之间的优劣。在上一节“房价预测”的例子中,当选用一元线性回归算法时,学得的模型是一元一次函数,当选用多项式回归算法时,学得的模型是一元二次函数,所以不同的机器学习算法有不同的偏好,我们称为“原创 2024-01-16 15:32:16 · 390 阅读 · 1 评论 -
【机器学习笔记】基本概念
机器学习的一般流程如下:首先收集若干样本(假设此时有 100 个),然后将其分为训练样本(80 个)和测试样本(20 个),其中 80 个训练样本构成的集合称为“训练集”,20 个测试样本构成的集合称为“测试集”,接着选用某个机器学习算法,让其在训练集上进行“学习”(或称为“训练”),然后产出得到“模型”(或称为“学习器”),最后用测试集来测试模型的效果。此处的“分布”指的是概率论中的概率分布,通常假设样本空间服从一个未知“分布”D,而 我们收集到的每个样本都是独立地从该分布中采样得到,即“独立同分布”。原创 2024-01-16 15:05:23 · 799 阅读 · 1 评论