数据挖掘
文章平均质量分 55
聆听我的召唤,菜鸟进化
这个作者很懒,什么都没留下…
展开
-
异常值检测方法(考试版7)
基于聚类的异常值检测方法继上次餐馆老板同学们帮忙对客户数据进行分组后,老板发现部分顾客被划归为某些簇中,而这些顾客是异常的。为此需要对此数据进行异常值检测并删除,然后再对清洗后的数据进行分组。(1)利用基于对象离群因子法识别离群点(2)利用基于簇的离群因子法识别离群点基于近邻的噪声点检测方法ENN 方法基本思想:针对分类任务的数据集中的某个元素,若其类标签与其 k(一般 k=3)个近邻中多数元素的标签不一致,则认为其是异常对象。顺序(1)读取“banana.dat”数据文件,并在二维平面原创 2022-01-07 14:33:00 · 1275 阅读 · 0 评论 -
聚类相关 考试版(5)
1.案例简介某个餐饮公司因前期经验不善的影响而生意惨淡,现有位“接盘侠”接受了此餐厅。他为了扭转此现状,通过“充值 200 送 20 元”、“充 值 500 元送 50 元”等优惠方式办理了几百张就餐充值卡,若干个月后收集了 500 名顾客的“最近一次消费时间间隔”(R)、“消费频率”(F)、“消费总额”(M)三类消费行为数据。此 “接盘侠”试图利用此数据将客户进行分类成不同客户群,并评价这些客户群的价值,进行实行做到针对性服务。然而此“接盘侠”不懂得对这些数据进行分析,你可以帮助他吗?2.原创 2022-01-07 14:31:20 · 983 阅读 · 0 评论 -
朴素贝叶斯(考试版6)
***1.案例简介利用朴素贝叶斯分类方法对文本数据进行情感分析,进而设计一个留言板过滤系统.(以下代码实现不要使用SKLEARN模块)2.数据采集以下表格中是一个文本分类的问题,区分一句话是粗鲁的还是文明的,类别标签只有Yes或No,表示是粗鲁的和不是粗鲁的语句。3.数据预处理给定一个词典【”my”,“name”,“is”,“Devin”,“you”,“are”,“stupid”,“boyfriend”,“SB”,“looks”,“very”,“smart”,”like”,”much”】需要将每一原创 2022-01-02 16:33:14 · 808 阅读 · 0 评论 -
决策树(考试版4)
作图需要专门下载graphviz软件案例简介:本节我们将通过一个例子讲解决策树如何预测患者需要佩戴的隐形眼镜类型。使用小数据集,我们就可以利用决策树学到很多知识:眼科医生是如何判断患者需要佩戴的镜片类型;一旦理解了决策树的工作原理,我们甚至也可以帮助人们判断需要佩戴的镜片类型。1.数据准备隐形眼镜数据集是非常著名的数据集,它包含很多患者眼部状况的观察条件以及医生推荐的隐形眼镜类型。隐形眼镜类型包括硬材质、软材质以及不适合佩戴隐形眼镜(lenses.txt)。2.数据处理解析tab键分隔的数据行原创 2022-01-02 00:57:56 · 1057 阅读 · 0 评论 -
K-近邻(考试版3)
K-近邻分类算法案例我的朋友海伦一直使用在线约会网站寻找适合自己的约会对象。尽管约会网站会推荐不同的人选,但她没有从中找到喜欢的人。经过一番总结,她发现曾交往过三种类型的人:“不喜欢的人”、“魅力一般的人”以及“极具魅力的人”。尽管发现了上述规律,但海伦依然无法将约会网站推荐的匹配对象归人恰当的分类。她觉得可以在周一到周五约会那些魅力一般的人,而周末则更喜欢与那些极具魅力的人为伴。海伦希望我们的分类软件可以更好地帮助她将匹配对象划分到确切的分类中。此外海伦还收集了一些约会网站未曾记录的数据信息,她认为这些原创 2022-01-02 00:30:27 · 1065 阅读 · 0 评论 -
挖掘频繁模式(考试版2)
关联规则简介关联规则反映一个事物与其他事物之间的相互依存性和关联性。若两个或多个事物之间存在一定的关联关系,则其中一个事物就能够通过其他事物预测到。典型的关联规则发现问题是对超市中的货篮数据(Marker Basket)进行分析,通过发现顾客放入货篮中的不同商品之间的关系来分析顾客的购买习惯。基本概念事务:由事务号和项集组成。事务是一次购买行为项:最小处理单位,即购买的物品项集:由一个或多个项组成支持度计数:包含某个项集的事务数支持度:包含某个项集的事务数的比例支持度:包含某个项集的事务原创 2021-12-31 17:30:26 · 425 阅读 · 0 评论 -
数据预处理(考试版1)
数据预处理的主要任务数据清理填充缺失值,识别/去除离群点,光滑噪音,并纠正数据中的不一致数据集成多个数据库,数据立方体或文件的集成数据归约得到数据的归约表示,它小得多,但产生相同或类似的分析结果:维度规约、数值规约、数据压缩Pandas缺失值处理删除pandas中None与np.nan都视作np.nan,在pandas中,None和np.nan统一处理成NaN,类型为float型,可用于计算且运算结果扔为NaN。pandas处理空值操作isnull()如果为NaN就返回True,否则原创 2021-12-31 15:30:02 · 487 阅读 · 0 评论