![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
文章平均质量分 92
丶无尘
这个作者很懒,什么都没留下…
展开
-
sklearn多种模型实现糖尿病患者预测
一、实验目的系统性掌握数据挖掘的流程和方法。二、实验内容1. 实验数据根据美国疾病控制预防中心的数据,现在美国1/7的成年人患有糖尿病。但是到2050年,这个比例将会快速增长至高达1/3。在UCL机器学习数据库里一个糖尿病数据集,通过这一数据集,建立一个数据分析模型实现对病人是否患病进行预测。数据地址:https://github.com/susanli2016/Machine-Learning-with-Python/blob/master/diabetes.csv数据集位768 ×\time原创 2021-06-12 15:18:05 · 13519 阅读 · 11 评论 -
K-means算法手动实现
1. K-means算法k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中原创 2021-06-01 21:36:03 · 1952 阅读 · 0 评论 -
Apriori算法手动实现
1. Apriori算法关联规则挖掘是数据挖掘中最活跃的研究方法之一 。最早是由 Agrawal 等人提出的1993最初提出的动机是针对购物篮分析问题提出的,其目的是为了发现交易数据库中不同商品之间的联系规则。这些规则刻画了顾客购买行为模式,可以用来指导商家科学地安排进货,库存以及货架设计等。之后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作涉及到关联规则的挖掘理论的探索,原有的算法的改进和新算法的设计,并行关联规则挖掘Parallel Association Rule Mining,以及原创 2021-05-26 21:29:48 · 1241 阅读 · 1 评论 -
应用sklearn实现SVM和数据预处理
1. SVM算法支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier),其决策边界是对学习样本求解的最大边距超平面(maximum-margin hyperplane)。SVM使用铰链损失函数(hinge loss)计算经验风险(empirical risk)并在求解系统中加入了正则化项以优化结构风险(structural risk)原创 2021-05-22 21:41:19 · 3709 阅读 · 0 评论 -
PageRank的原理及实现
基于 PageRank 的链接分析1. PageRank理论一般的,对于网页 AAA 的PageRank值,我们可以按照以下公式迭代计算:PRn(A)=(1−d)/N+d×(∑i=1mPRn−1(Ti)C(Ti))PR_n(A)=(1-d)/N+d\times(\sum_{i=1}^m\frac{PR_{n-1}(T_i)}{C(T_i)})PRn(A)=(1−d)/N+d×(i=1∑mC(Ti)PRn−1(Ti))其中 NNN 为网页总数,PRn−1(Ti)PR_{n-1}(T_i原创 2021-05-22 17:16:07 · 457 阅读 · 0 评论 -
决策树ID3算法手动实现
决策树 ID3算法手动实现1. ID3算法决策树中每一个非叶结点对应着一个非类别属性,树枝代表这个属性的值。一个叶结点代表从树根到叶结点之间的路径对应的记录所属的类别属性值。每一个非叶结点都将与属性中具有最大信息量的非类别属性相关联。采用信息增益来选择能够最好地将样本分类的属性。信息增益基于信息论中熵的概念。ID3总是选择具有最高信息增益(或最大熵压缩)的属性作为当前结点的测试属性。该属性使得对结果划分中的样本分类所需的信息量最小,并反映划分的最小随机性或“不纯性”。决策树算法的伪代码如下:原创 2021-05-16 11:18:00 · 2263 阅读 · 2 评论