数据挖掘（分类、聚类、隐私保护）

原创已于 2024-03-13 20:27:54 修改 · 1k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#数据挖掘 #分类 #聚类

于 2024-03-13 20:15:15 首次发布

数据挖掘专栏收录该内容

1 篇文章

订阅专栏

本文探讨了数据挖掘的概念、流程，包括数据预处理、分类、聚类、关联规则和回归等方法，强调了国际会议和期刊的重要性。同时，提及了大数据时代的特点以及隐私保护和云计算在数据处理中的角色。

数据挖掘：

(又名：知识发现)
Mining？Warehousing？

怎么做数据挖掘？

【数据+数据处理（模型、公式、算法）+高性能计算】–>数据挖掘
–>才能实现数据的价值

一些相关的重要的国际会议：

International Conference on Data Mining
International Conference on Data Engineering
International Conference on Machine Learning
International Joint Conference on Artificial Intelligence
Pacific-Asia Conference on Knowledge Discovery and Data Mining
ACM SIGKDD Conference on Knowledge Discovery and Data Mining

一些相关的重要的期刊：

Data Mining and Knowledge Discovery
Neural Networks and Learning systems
Knowledge and Data engineering
Information science
IEEE Computation Intelligence society
IEEE computer society

Big Data：

Volume层面：Terabytes—>Zettabytes (Tb–Zb)
Variety：Stuctured—>Stuctured&Unstructured (结构化数据–非结构化数据)
Velocity：Batch—>Streaming Data (对算法处理流数据的能力提出更高的要求)

From Data To Intelligence
dataBase–Information–Knowledge–Decision Support

数据分析的流程
1、数据存放在不同的数据源：文本文件Flat Files、CRM系统、ERP系统、或其他的数据库中
2、对所有的数据进行融合（融合的过程被称为“ETL”：提取、转换、装载）
3、装在数据仓库中（包含元（原）数据、真实数据）
4、最后对数据进行各种各样的分析（Data Analysis、Reporting、Data Mining）

数据挖掘流程抽象理解：
Define problem、Data Collection、Data Preparation、Data modelling、Interpretation/evaluation、Implement/deploy model