大数据项目实训总结_大数据分析必备知识点总结

这篇博客总结了大数据分析的关键知识点,包括数据的不同形式、知识模式类型、Web挖掘流派、KDD过程、决策树构建、分类方法、关联规则挖掘、数据挖掘相关技术和有效性衡量标准等。还探讨了数据挖掘软件的发展阶段、聚类分析方法、文本挖掘方式以及Web访问挖掘技术。此外,文章介绍了数据挖掘语言的分类和数据挖掘项目管理的I-MIN过程模型,最后提到了Apriori算法的性能分析和改进方法。
摘要由CSDN通过智能技术生成

今天给大家分享一篇关于大数据分析必备知识点总结,下面我们一起来看一下吧。


1.数据、信息和知识是广义数据表现的不同形式。
2.主要知识模式类型有:广义知识,关联知识,类知识,预测型知识,特异型知识
3.web挖掘研究的主要流派有:Web结构挖掘、Web使用挖掘、Web内容挖掘
4.一般地说,KDD是一个多步骤的处理过程,一般分为问题定义、数据抽取、数据预处理,数据挖掘以及模式评估等基本阶段。
5.数据库中的知识发现处理过程模型有:阶梯处理过程模型,螺旋处理过程模型,以用户为中心的处理结构模型,联机KDD模型,支持多数据源多知识模式的KDD处理模型。
6.粗略地说,知识发现软件或工具的发展经历了独立的知识发现软件、横向的知识发现工具集和纵向的知识发现解决方案三个主要阶段,其中后面两种反映了目前知识发现软件的两个主要发展方向。

0c2e9473801b32b997b55e28ccfc6d77.png


7.决策树分类模型的建立通常分为两个步骤:决策树生成,决策树修剪。
8.从使用的主要技术上看,可以把分类方法归结为四种类型:
基于距离的分类方法
决策树分类方法
贝叶斯分类方法
规则归纳方法
9.关联规则挖掘问题可以划分成两个子问题:
发现频繁项目集:通过用户给定Minsupport,寻找所有频繁项目集或者最大频繁项目集。
生成关联规则:通过用户给定Minconfidence,在频繁项目集中,寻找关联规则。
10.数据挖掘是相关学科充分发展的基础上被提出和发展的,主要的相关技术:
数据库等信息技术的发展
统计学深入应用
人工智能技术的研究和应用

82a0dbe0073f4978ab43d94621f24f8f.png


11.衡量关联规则挖掘结果的有效性,应该从多种综合角度来考虑:
准确性:挖掘出的规则必须反映数据的实际情况。
实用性:挖掘出的规则必须是简洁可用的。
新颖性:挖掘出的关联规则可以为用户提供新的有价值信息。
12.约束的常见类型有:
单调性约束;
反单调性约束;
可转变的约束;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值