机器学习
文章平均质量分 86
机器学习
Fishermen_sail
这个作者很懒,什么都没留下…
展开
-
Apriori介绍及代码批注
关联规则分析是数据挖掘中最活跃的研究方法之一,目的是在一个数据集中找到各项之间的关联关系,而这种关系并没有在数据中直接体现出来。以超市的销售数据为例,当存在很多商品时,可能的商品组合数量达到了令人望而却步的程度,这是提取关联规则的最大困难。因此各种关联规则分析算法从不同方面入手减少可能的搜索空间大小以及减少扫描数据的次数。Apriori算法是最经典的挖掘频繁项集的算法,第一次实现了在大数据集上的的关联规则提取,其核心思想是通过连接产生候选项及其支持度,然后通过剪枝生成频繁项集。原创 2023-10-28 18:56:29 · 298 阅读 · 0 评论 -
Kaggle回归问题Mercedes——Benz Greener Manufacturing
这是我在大三选修课的课程设计,内容参考了Kaggle上高赞的代码,有详细批注,整体比较基础,结构相对完整,便于初学者学习。这个是一个回归问题,我的另外一篇博客《Kaggle分类问题Titanic——Machine Learning from Disaster》介绍了回归问题。除此之外我的《电商评论文本挖掘》也是我当年的课程设计,也有详细的批注,相比这个难度会稍微高些。题目背景:自1886年第一辆奔驰汽车问世以来,梅赛德斯奔驰一直代表着重要的汽车创新。原创 2023-08-24 05:33:38 · 1689 阅读 · 0 评论 -
Kaggle分类问题Titanic——Machine Learning from Disaster
这是我在大三选修课的课程设计,内容整体比较基础,结构相对完整,便于初学者学习。这个是一个分类问题,我的另外一篇博客“”介绍了回归问题。除此之外我的《电商评论文本挖掘》也是我当年的课程设计,也有详细的批注,相比这个难度会稍微高些。题目背景:在1912年4月15日,当时世界最豪华的游艇,泰坦尼克号撞到冰山沉入海底,其中船上2224位乘客中的1502位死在了此次事故中。在幸存者中,尽管有一些是来自于幸运,但是大部分幸存着是来自于女人、小孩还有一些贵族。而我们的任务就是通过机器学习,计算出人们幸存的概率。变量。原创 2023-08-24 05:16:18 · 771 阅读 · 0 评论 -
Scikit-learn强化学习代码批注及相关练习
木棒每保持平衡1个时间步,就得到1分。每一场游戏的最高得分为200分每一场游戏的结束条件为木棒倾斜角度大于41.8°或者已经达到200分。最终获胜条件为最近100场游戏的平均得分高于195。代码中env.step(),的返回值就分别代表了。观测Observation:当前step执行后,环境的观测。奖励Reward:执行上一步动作(action)后,智能体(agent)获得的奖励,不同的环境中奖励值变化范围也有不同,但是强化学习的目标就是总奖励值最大。原创 2023-08-23 15:23:57 · 875 阅读 · 0 评论 -
Scikit-learn降维与度量学习代码批注及相关练习
它有四个选项,linear:线性核函数,是在数据线性可分的情况下使用的,运算速度快,效果好,不足在于它不能处理线性不可分的数据,在下图中它的结果图和PCA一摸一样。randomized一般适用于数据量大,数据维度多同时主成分数目比例又较低的PCA降维,它使用了一些加快SVD的随机算法。PCA:通过投影矩阵(特征向量)将高维信息转到另外一个坐标系下,在经过SVD分解后,在某一维度上,数据分步更分散,越能代表主要特征,对数据分布情况的解释就更强,所以通过方差最大来衡量样本的分布情况,进而进行有效的低维判断。原创 2023-08-23 15:14:41 · 825 阅读 · 0 评论 -
Scikit-learn聚类方法代码批注及相关练习
它的原因是在“db.core_sample_indices_”和“db.labels”,起初我以为“db.core_sample_indices_”会生成除噪音点以外的其他index,也就是区分开了噪音点与聚类点。但其实并不是,有少部分不在“db.core_sample_indices_”中的点也是聚类点,在下方打印出来的值分别与它俩相对,可以看见前者并没有为32的index,理论上它应该为-1噪音点,但打印出“db.labels”发现index为32的值是1,是一个聚类点。原创 2023-08-09 15:27:35 · 715 阅读 · 0 评论 -
Scikit-learn集成学习代码批注及相关练习
AdaBoostClassifier的原理是先训练一个弱学习器模型,然后对他的结果进行评估,对于这个模型中做对的问题,我们将减少它的注意力,对于做错的问题我们将增大对他的注意力,从而在后续的新模型中,更专注克服前一个模型所不能解决的困难点,最后,当我们把所有模型整合在一起,构成一个大的框架,大框架中有处理简单问题的模型,也有处理困难问题的模型,使大框架的整体性能有所提高。而任务中修改基学习器的数量因该指的是修改n_estimators的大小,它是弱学习器的最大迭代次数,也可以说是最大的弱学习器的个数。原创 2023-07-21 16:43:00 · 307 阅读 · 0 评论 -
天池:数据分析达人赛1:用户情感可视化分析
赛题以网络舆情分析为背景,要求选手根据用户的评论来对品牌的议题进行数据分析与可视化。通过这道赛题来引导常用的数据可视化图表,以及数据分析方法,对感兴趣的内容进行探索性数据分析。数据源: earphone_sentiment.csv,为10000+条行业用户关于耳机的评论**前情提要:这个代码我是用Jupyter写的,可能在Github上看效果更好些,这是项目地址:xxx这个耳机评论数据还是挺不好的,我不知道是不是故意的,让你把它变好?根据下面的前几张图,起初我以为题目会让你预测那70%的地方,但根本没法原创 2022-06-25 17:14:13 · 710 阅读 · 0 评论