![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python与数据挖掘
文章平均质量分 94
三头猪等于一头大猪
想睡觉
展开
-
Python 数据处理数据挖掘(七):K-Means聚类算法
K-Means聚类算法,K-Means是非监督学习的聚类算法,将一组数据分为K类(或者叫簇/cluster),每个簇有一个质心(centroid),同类的数据是围绕着质心被分类的。数据被分为了几类就有几个质心。算法步骤:1、先从原始数据集中随机选出K个数据,作为K个质心。2、将剩余的数据分配到与之最相似的的质心的那个簇里。3、第一次分类完成后,计算每个簇内样本的均值,并根据这个均值生成新的质心4、重复2,3步,直至质心的变化距离小于某个值(主观设定),如果质心始终没法稳定下来肘部法则原理原创 2022-07-23 23:04:44 · 3536 阅读 · 2 评论 -
Python 数据处理数据挖掘(六):决策树模型 之 CART算法
基尼系数,分类/回归决策树,TPR,FPR,ROC,AUC, Gridsearch,k折交叉验证原创 2022-07-21 23:35:53 · 3185 阅读 · 0 评论 -
Python 数据处理数据挖掘(五):线性回归
声明本文为学习笔记,侵权删。一、相关系数rr类似于直线斜率k,r>0,则表示正相关,r原创 2022-07-18 17:30:15 · 2937 阅读 · 3 评论 -
Python 数据处理数据挖掘(四):用户分层模型RFM
声明本文为学习笔记,侵权删。原创 2022-07-15 15:27:11 · 3631 阅读 · 0 评论 -
Python数据处理数据挖掘(三):关联分析(Apriori算法)
声明:本文为学习笔记,侵权删关联分析:参考啤酒与尿不湿的故事,啤酒和尿不湿本身没有关系,但通过调查买啤酒的人有大概率会买尿不湿,所以啤酒+尿不湿就成了一个销售组合。得出这个销售组合的过程就是关联分析。事务:每条购买信息就是一个事务。项集:一条事务中物品的随机组合产生的集合。一个集合里有几个项,就叫几项集。比如在下面这份数据中,有四个事务,{捏脚}是一项集,{捏脚,SPA}是二项集。支持度:support=一个项集出现的频率=项集出现的次数/事务总数。Support({捏脚})=4/4=1,Support({原创 2022-07-13 17:35:16 · 8500 阅读 · 2 评论 -
Python 数据处理数据挖掘(二):协同过滤
声明:本文仅为学习笔记,欢迎各位大佬的意见与建议,侵权删协同过滤算法,collaborative filtering(CF),通过挖掘用户历史行为信息,从而发现用户偏好。基于不同 的偏好,对用户或产品进行群组划分,最后为目标用户推荐对应的信息。“协同”即利用多个用户数据对数据进行挖掘,“过滤”即信息筛选的过程。主要功能及预测和推荐。协同过滤算法分为:1、基于用户的协同过滤算法;2、基于产品的协同过滤算法基于用户的协同过滤算法(userCF),通过挖掘用户的历史数据,寻找与目标用户具有相似喜好的用户,将相关的原创 2022-07-11 17:59:48 · 2956 阅读 · 0 评论 -
Python 数据处理数据挖掘(一):CSV文档数据处理
目录一、读取CSV文件二、数据清洗1、识别并处理缺失值 2、识别并处理异常值3、识别并处理重复值三、分组处理1、设置行索引:data.set_index("Index")2、数据分组统计:groupBy()声明:本文为学习笔记,侵权删所用函数:pandas.read_csv(file_path)数据挖掘时我们更多得会使用CSV文件,而不是Excel文件。如果数据本身以Excel的形式存储,只需打开,另存为CSV文件即可。读取CSV文件需要调用pandas包,没有的自行pip一下哦。举例:运行结果:如果原创 2022-07-06 16:58:00 · 6829 阅读 · 4 评论