《数据挖掘导论》- 读书笔记 - 总结

最新推荐文章于 2023-07-11 15:23:07 发布

bakalaka

最新推荐文章于 2023-07-11 15:23:07 发布

阅读量1.6k

点赞数 1

分类专栏：数据挖掘理论文章标签：大数据

原文链接：https://www.dazhuanlan.com/2019/10/20/5dac5fd8b5ded/

版权

数据挖掘理论专栏收录该内容

8 篇文章 7 订阅

订阅专栏

本文转载自：https://www.dazhuanlan.com/2019/10/20/5dac5fd8b5ded/

0.概述

数据挖掘导论涉及到的知识比较丰富，梳理下内容，为后面推荐系统设计做铺垫。

1.什么是数据挖掘

数据挖掘是在大型数据存储库中，自动发现有用信息的过程。数据挖掘技术用来探测大型数据库，发现先前未知的有用模式。
数据挖掘还可以预测未来观测结果，例如预测一位新的顾客是否会在一家百货公司消费100美元以上。

数据挖掘是数据库中知识发现(KDD)不可缺少的一部分，而KDD是将未加工的数据转换为有用信息的整个过程。

2.数据挖掘要解决的问题

数据可伸缩，数据的高维性，异种数据和复杂数据，数据的所有权与分布，非传统的分析。

3.数据挖掘和其他领域之间的联系

4.数据挖掘任务

1.预测任务。目标是根据其他属性的值，预测特定属性的值。被预测的属性一般称目标变量，而用来做预测的属性称说明变量。

2.描述任务。目标是导出概况数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。

预测建模(predictive modeling)：涉及以说明变量函数的方式为目标变量建立模型。有两类预测建模任务：分类(classification)，用于预测离散的目标变量；回归(regression)，用于预测连续的目标变量。

关联分析(association analysis)：用来发现描述数据中强关联特征的模式。

聚类分析(cluster analysis)：旨在发现紧密相关的观测值组群。

异常检测(anomaly detection)：识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点(anomaly)或离群点(outlier)。异常检测算法的目标是发现真正的异常点，而避免错误地将正常的对象标注为异常点。

5.分类

分类法包括：决策树归纳，基于规则分类，最近邻分类，神经网络，支持向量机，朴素贝叶斯分类。

6.关联分析

apriori算法，FP增长算法

7.聚类分析

聚类类型：层次的与划分的，互斥的、重叠的与模糊的，完全的与部分的。

簇类型：明显分离的，基于原型的，基于图的，基于密度的，共同性质的(概念簇)

基于原型的算法：K均值，自组织映射(SOM)，期望最大化(EM),

基于密度的算法：DBSCAN,CLIQUE,DENCLUE

基于图的算法：MST(最小生成树)算法,Opossum算法，Chameleon算法,Jarvis-Patrick算法

凝聚的层次聚类：分两种产生层次聚类的方法——凝聚的，分裂的。

可伸缩的聚类：BIRCH，CURE

8.异常检测

异常检测方法：基于模型的技术，基于临近度的技术，基于密度的技术，基于聚类的技术

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
《数据挖掘导论》- 读书笔记 - 总结

0.概述数据挖掘导论涉及到的知识比较丰富,梳理下内容，为后面推荐系统设计做铺垫。1.什么是数据挖掘数据挖掘是在大型数据存储库中，自动发现有用信息的过程。数据挖掘技术用来探测大型数据库，发现先前未知的有用模式。数据挖掘还可以预测未来观测结果，例如预测一位新的顾客是否会在一家百货公司消费100美元以上。数据挖掘是数据库中知识发现(KDD)不可缺少的一部分，而KDD是将未加工的数据转换为有用信息的...
复制链接

扫一扫

专栏目录

bakalaka CSDN认证博客专家 CSDN认证企业博客

码龄7年

0: 原创

9万+: 周排名

53万+: 总排名

19万+: 访问

: 等级

1639: 积分

122: 粉丝

97: 获赞

21: 评论

669: 收藏

私信

关注

热门文章

分类专栏

最新评论

自适应滤波器：LMS算法、归一化LMS滤波器
weixin_57277491: M 應該就是指 filter order 吧？
自适应滤波器：LMS算法、归一化LMS滤波器
weixin_57277491: 你好，可以請教如何調整filter order 嗎？
自适应滤波器：递归最小二乘（RLS）
小陈IT: % [s, fs, bits] = wavread('myspeech.wav'); [s,fs] = audioread('myspeech.wav');%读取音频文件,调用音频文件，采样值放在x中，fs为采样频率X=x(:,1);%取矩阵x的第一列赋值到x矩阵中 ainfo=audioinfo('myspeech.wav'); bits=ainfo.BitsPerSample; s=s-mean(s); s=s/max(abs(s)); N=length(s); time=(0:N-1)/fs; clean=s'; ref_noise=.1*randn(1,length(s)); mixed = clean+ref_noise; mu=0.05;M=2;espon=1e-4; % [en,wn,yn]=lmsFunc(mu,M,ref_noise,mixed); % [en,wn,yn]=nlmsFunc(mu,M,ref_noise,mixed,espon); delta = 1e-7; lambda = 1; [en,w]=rls(lambda,M,ref_noise,mixed,delta); function [e,w]=rls(lambda,M,u,d,delta) % recursive least squares,rls. % Call: % [e,w]=rls(lambda,M,u,d,delta) % % Input arguments: % lambda = constant, (0,1] % M = filter length, dim 1x1 % u = input signal, dim Nx1 % d = desired signal, dim Nx1 % delta = constant for initializaton, suggest 1e-7. % % Output arguments: % e = estimation error, dim Nx1 % w = final filter coefficients, dim
自适应滤波器：LMS算法、归一化LMS滤波器
pppomm: 你好，可以发一下完整代码吗？现在的画不出图
自适应滤波器：LMS算法、归一化LMS滤波器
flyingpigeightquit: 博主你好，滤除50hz的算法，会同时对比较宽的一个带宽都有较强衰减，比如200hz的信号也被衰减的很厉害，请问有什么可以分享的方法吗？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。