机器学习
文章平均质量分 85
Unicornlyy
记录个人成长~一个人或许走的很快但一群人走的更远一起努力吧!
展开
-
用python实现adaboost算法例题
AdaBoost先初始化样本权值分布,并从初始训练集训练出一个基学习器,再根据这个基学习器的分类结果对训练样本的权值分布进行调整,再生成新的基学习器,依次进行下去,直到满足要求。1.会用Python提供的方法对数据进行预处理。2.会用python实现adaboost算法。由上图可以发现模型预测的正确率达100%(3)计算分类器系数α \alphaα。(7)将所有的分类器线性相加。(4)更新训练数据的权值分布。(1)初始化样本权值分布。(2)生成基本分类器G1。(5)生成新的分类器G2。(6)循环(2-5)原创 2023-12-23 10:26:26 · 456 阅读 · 0 评论 -
使用SVM对手写体数字图片分类
在用模型做预测时,对两两类别之间的分割超平面分别进行匹配,统计有多少次判别将其华分类1类,多少次判别为2类…,判定所属类别次数最多的就是最后预测的类别。先对1类和2类的数据进行计算,得到1类和2类的分割超平面,然后对2类和3类的数据进行计算,以此类推,直到两两类别分别完成计算。使用sklearn.svm类对手写体数字图片进行分类。训练数据:digits_training.csv。测试数据:digits_testing.csv。第1列是类别,其他列是特征属性。原创 2023-12-23 10:26:04 · 499 阅读 · 0 评论 -
用python对航空公司客户价值进行聚类分析
1.会用Python创建KMeans聚类分析模型;2.使用KMeans模型对航空公司客户价值进行聚类分析;3.会对聚类结果进行分析。原创 2023-12-23 10:25:40 · 636 阅读 · 0 评论 -
实验用python实现决策树和随机森林分类
其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。训练集和测试集的比例是7:3,选取适当的特征列,使得针对测试样本的分类准确率在80%以上,比较2种分类方法的准确率。3.决策树剪枝:剪枝原因是决策树生成算法生成的树对训练数据的预测很准确, 但是对于未知数据分类很差, 这就产生了过拟合的现象。涉及算法有CART算法。3.对属性是字符串的任意特征进行数字编号处理,显示前5行编码后的结果,每个特定的字符串用一个整数来表示,整数序列从0开始增长。原创 2023-12-17 21:40:24 · 240 阅读 · 0 评论 -
根据豆瓣对《流浪地球》的短评数据进行文本分析和挖掘
关于《流浪地球》的观影评价,已经变成了场逐渐失控的舆论混战,如"枪稿“作者灰狼所说,"关于它的舆论,已经演化成、政治正确、水军横行、自来水灭差评、道德绑架、战狼精神”。为了对《流浪地球》的观影评价有个全面的了解,对《流浪地球》的豆影评数据进行分析和挖掘。相反,不准确的分词处理会产生大量的噪声,严重干扰计算机的识别理解能力,并对后续的处理工作产生较人的影响。营见停用词例如:的、了、都、你、我、么等等,这些词通常在文本中大量出现,会带来大量的噪音数据.因此需要将这些停用词进行过滤。新建一列label存储。原创 2023-12-03 20:24:41 · 194 阅读 · 0 评论 -
Datawhale智能汽车AI挑战赛
CLIP的训练数据是文本-图像对:一张图像和它对应的文本描述,这里希望通过对比学习,模型能够学习到文本-图像对的匹配关系。如下图所示,CLIP包括两个模型:Text Encoder和Image Encoder,其中Text Encoder用来提取文本的特征,可以采用NLP中常用的text transformer模型;CLIP的思想非常简单,只需要看懂这幅图就可以了,左边是训练的原理,CLIP一共有两个模态,一个是文本模态,一个是视觉模态,分别对应了Text Encoder和Image Encoder。原创 2023-11-15 22:04:33 · 536 阅读 · 0 评论 -
机器学习算法实战实战案例代码详解
最后一行代码调用了stack_model函数,并传入了四个基本模型的训练集预测结果(et_oof_train, rf_oof_train, rd_oof_train, ls_oof_train)、测试集预测结果(et_oof_test, rf_oof_test, rd_oof_test, ls_oof_test)以及训练集标签(y_train)进行堆叠模型的训练和预测。同时,这样的映射也可以将原始的分类特征转换为连续的数值特征,有助于提高模型的准确性和效果。缺点:当类别的数量很多时,特征空间会变得非常大。原创 2023-11-13 13:35:42 · 323 阅读 · 0 评论 -
用朴素贝叶斯实现垃圾邮箱分类实验报告
1.把给定的数据集message.csv拆分成训练集和测试集,使用sklearn.naive_bayes.MultionmialNB类常见一个朴素贝叶斯模型,使用训练数据训练出一个预测模型,然后用预测模型对测试集中数据进行分类,评价模型的分类效果。2.message.csv数据集中包含大量的短信,每行数据包括2个字段:短信内容,短信类别(1或者0),短信类别为1的是垃圾短信。2.使用朴素贝叶斯模型对垃圾邮件分类。4.会用评价朴素贝叶斯模型的分类效果。3.会把文本内容变成向量。原创 2023-11-10 20:37:26 · 342 阅读 · 0 评论 -
用Python实现朴素贝叶斯垃圾邮箱分类
此外,通过实践,你还将加深对机器学习算法和文本处理技术的理解和应用能力,为进一步探索更复杂的机器学习问题打下基础。在训练和测试之前,我们需要对数据进行预处理,以便将其转换为适合朴素贝叶斯算法使用的格式。我们将在测试集上测试训练好的朴素贝叶斯分类器,并计算其准确性、召回率、F1得分等指标,以评估其性能。在完成训练和测试后,我们可以将训练好的朴素贝叶斯分类器应用于新的未知邮件文本,并根据其内容将其分类为“垃圾邮件”或“非垃圾邮件”。理解特征提取的概念,掌握常见的特征提取方法,如词袋模型和TF-IDF。原创 2023-11-08 20:51:42 · 724 阅读 · 3 评论 -
用Python实现感知机学习算法及其对偶算法实验报告
感知机对偶算法通过引入拉格朗日乘子,将原始算法转化为对偶问题,从而避免了对每个样本都进行权重更新的过程,提高了算法的效率。对偶算法的实现:编写Python代码实现感知机对偶算法。3.掌握感知机对偶算法的实现方法:感知机对偶算法通过引入拉格朗日乘子,将原始算法转化为对偶问题,从而避免了对每个样本都进行权重更新的过程,提高了算法的效率。1.理解感知机学习算法的基本思想:感知机是一种简单的线性分类模型,其基本思想是通过不断调整权重,使得分类超平面能够将不同类别的样本正确分开。原创 2023-10-28 20:54:45 · 480 阅读 · 0 评论 -
Datawhale学习笔记AI +新能源:电动汽车充电站充电量预测2
了解到一个自动调参工具openbox,但是我还不会用只下载成功了它的包。在飞浆平台上成功运行出pandas-profiling啦~然后演示,可以生成一个网页对数据有一个比较好的理解。算了算了还是不调了效果真不行。试试利用上下值填充缺失值。同样,查看测试集的情况。原创 2023-10-22 15:38:08 · 303 阅读 · 0 评论 -
Datawhale学习笔记AI +新能源:电动汽车充电站充电量预测
建立站点充电量预测模型,根据充电站的相关信息和历史电量数据,准确预测未来某段时间内充电站的充电量需求。在赛题数据中,我们提供了电动汽车充电站的场站编号、位置信息、历史电量等基本信息。我们鼓励参赛选手在已有数据的基础上补充或构造额外的特征,以获得更好的预测性能python库:pandas_profiling,这个库只需要一行代码就可以生成数据EDA报告。基于pandas的DataFrame数据类型,可以简单快速地进行探索性数据分析。原创 2023-10-18 18:53:43 · 1047 阅读 · 14 评论 -
机器学习西瓜书+南瓜书吃瓜教程学习笔记第六章支持向量机
周志华老师机器学习西瓜树+南瓜书以下是我的学习笔记:支持向量机(support vector machines,SVM)是一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,通过对偶问题,最终转化为一个凸二次规划问题来求解。:从几何角度,对于线性可分数据集,支持向量机就是找距离正负样本都最远的超平面,相比于感知机,其解是唯一的,且不偏不倚,泛化性能更好。原创 2023-09-27 22:58:56 · 488 阅读 · 0 评论 -
机器学习西瓜书+南瓜书吃瓜教程学习笔记第五章神经网络
来自和周志华老师的机器学习西瓜书以下是我的学习笔记:神经网络:神经网络是由具有适应性的简单单元组成的广泛并行互联的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。原创 2023-09-24 22:06:13 · 202 阅读 · 0 评论 -
机器学习西瓜书+南瓜书吃瓜教程学习笔记第四章决策树
例如,我们对“这是好瓜吗?信息增益准则对可能取值数目较多的属性有所偏好(例如“编号”这个较为极端的例子,不过其本质原因不是取值数目过多,而是每个取值里面所包含的样本量太少),为减少这种偏好可能带来的不利影响,C4.5决策树选择使用“增益率”代替“信息增益”,增益率定义为。C4.5决策树并未完全使用“增益率”代替“信息增益”,而是采用一种启发式的方法:先选出信息增益高于平均水平的属性,然后再从中选择增益率最高的。信息增益:在已知属性(特征)a的取值后y的不确定性减少的量,也即纯度的提升。原创 2023-09-21 21:28:46 · 369 阅读 · 0 评论 -
机器学习西瓜书+南瓜书吃瓜教程学习笔记第三章(二)
以下是我的学习笔记。原创 2023-09-21 18:58:24 · 304 阅读 · 0 评论 -
机器学习西瓜书+南瓜书吃瓜教程第三章学习笔记
学习笔记~机器学习是想要通过现有的数据,找到隐藏在事物背后的规律。而大部分规律是符合线性模型的形式为了能进行数学运算,样本中的非数值类属性都需要进行数值化。原创 2023-09-19 01:17:20 · 211 阅读 · 0 评论 -
吃瓜教程第一二章学习记录
让计算机像人一样能从数据中学习出规律的一类算法。人工智能>机器学习>深度学习人工智能具体应用场景。原创 2023-09-13 00:50:07 · 229 阅读 · 0 评论 -
混淆矩阵、F1score详解
直白的意思就是模型预测为正例的样本中,其中真正的正例占预测为正例样本的比例,用此标准来评估预测正例的准确度。预测结果中,预测为正的样本中预测正确的概率。预测为正的正例样本与全部预测为正例的样本 (对于预测而言,包括真正例TP,假正例FP)的比值。预测为正的正例占全部实际为正例的样本 (可能将实际正例预测为正例即真正例TP,也可能实际正例预测为负例即假负例FN)的比例(真正正确的占所有实际为正的比例)以实际样本为判断依据,实际为正例的样本中,被预测正确的正例占总实际正例样本的比例。由上图例可知F1= (2。原创 2023-08-14 10:21:38 · 1442 阅读 · 0 评论 -
DatawhaleAI夏令营第三期机器学习用户新增预测挑战赛baseline新手教程
4、遍历数字1到9(代表one-hot编码的9个类别),检查字典对象d中是否包含键名为’key1’、‘key2’、…5、对于每个数字i,如果字典对象d中存在键名为’key’+str(i)的元素,则将该元素的值赋给向量v的第i-1个位置(索引为i-1)。3、如果d的值不是’unknown’,则将字符串形式的字典对象转换成实际的字典对象,可以使用eval()函数来实现这一转换。2、判断输入的d的值是否为’unknown’,如果是,则直接返回全零向量v。1、创建长度为9的全零向量v,用于存储编码后的结果。原创 2023-08-12 20:02:42 · 557 阅读 · 0 评论