Python
文章平均质量分 89
Python小文章,基本语法、数据分析等
likepandas
在校大三学生,小白菜菜一枚,希望结识大佬交流技术经验,带带小趴菜
展开
-
决策树算法上篇
决策树是属于有监督机器学习的一种,起源非常早,符合直觉并且非常直观,模仿人类做决策的过程,早期人工智能模型中有很多应用,现在更多的是使用基于决策树的一些集成学习的算法。原创 2024-09-13 10:58:40 · 538 阅读 · 1 评论 -
利用鸢尾花数据集介绍PCA算法
主成分分析(PCA, Principal Component Analysis)是一种常用的数据降维技术,它可以将高维数据转换为较低维数据,同时尽可能保留数据的主要信息。PCA通过寻找数据的主要方向,即方差最大的方向,来完成降维。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。原创 2024-09-10 13:12:20 · 1058 阅读 · 0 评论 -
K-Means聚类
使用sklearn可以快速实现 K-Means 算法,适合开发中快速调用。手动实现可以帮助我们理解 K-Means 算法的内部工作机制,例如如何更新簇中心、如何分配数据点等。通过手动实现,我们也可以更容易地修改算法,尝试改进或扩展 K-Means。K-Means 是一种经典的聚类算法,适合处理数据量较大、簇形状为圆形或球形的场景。不过,K-Means 也有一定的局限性,例如它对簇的形状敏感,容易受到初始簇中心选择的影响。原创 2024-09-09 21:45:00 · 1112 阅读 · 1 评论 -
基于sklearn库葡萄酒数据集的决策树回归分析
2)代码层次设计: 1:导入需要的算法库和模块;2:探索数据(查看数据特征、特征标签、特征名称、类标签名称…3:数据集分割(测试集、训练集);4:利用sklearn进行模型的实例化、训练、接口调用;1)问题分析:本问题的解决思路为先建立一棵决策树,再通过训练集和测试集准确性比较判断是否过拟合,若过拟合则通过entropy计算特征纯性找出最佳节点和最佳分支方法。得分每次运行得到的分数都是不一样的,因为他的训练集和测试集每次执行都是随机划分的,所以得到的结果必然不一样。探索特征名称和类名称数据分割。原创 2024-08-30 14:45:00 · 1036 阅读 · 0 评论 -
Python数据分析查询
1)问题分析: 查询借阅量最大的十本书需要先按照title进行分组,再使用。查询借阅量最大的十本书、查询被同一用户在一年中借阅多次的图书借阅情况。Pycharm3.11 Anaconda环境。查询被同一用户在一年中借阅多次的图书借阅情况。函数找出借阅量前十的书名和总借阅量,最后。)代码层次设计:根据上述思路,4)运行结果如图所示,结论为。进行分组并查询要求结果。查询借阅量最大的十本书。工程分为以下几个模块。原创 2024-08-30 12:57:17 · 679 阅读 · 0 评论