数据挖掘复习

最新推荐文章于 2024-07-25 13:46:12 发布

cc睡醒了

最新推荐文章于 2024-07-25 13:46:12 发布

阅读量494

点赞数 2

文章标签： maven idea intellij-idea

本文链接：https://blog.csdn.net/qq_45870024/article/details/121664319

版权

英文转中文

泛化（generalization）
最长序列(Maximal sequence)
联合概率（joint probability）
后验概率(posterior probability)
先验概率（prior probability）
子序列重叠（Overlap）
自回归 (Auto Regressive，简称AR)模型
移动回归模型(Moving Average，简称MA)
完全匹配（Whole Matching）
子序列匹配（Subsequence Matching）
自回归移动平均(Auto Regressive Moving Average，简称ARMA)
时间序列（Time Series）
DBSCAN：Density-Based Spatial Clustering of Applications with Noise，噪声环境下的密度聚类算法
基于密度的方法：Density-based approach
信息检索（Information Retrieval，IR）
k-中心点（ K-medoids ）选择簇中位置最中心的对象
概念学习模型CLS concept learning system
ID3算法：Iterative Dichotomiser 3，迭代二叉树3代
预先剪枝 pre-prunning
信息增益 information gain
信息增益比 gain ratio
后剪枝 post-prunning
分类回归树 classification and regression tree(CART)
k-近邻（kNN, k-NearestNeighbor）k-最临近方法
Frequent Pattern Tree 频繁模式树
项目序列（Itemsequence）
闭合频繁项集：closed frequent Itemset
过拟合（overfitting）
欠拟合： underfitting
关联规则（association rule）
项：（Item）
交易：（Transcation）
关联规则：Association Rule Mining
混淆矩阵：也称误差矩阵，Confusion Matrix
知识发现：Knowledge Discovery in Database
CNN：Convolution Neural Network卷积神经网络
DBN：Deep Belief Network, 深度信念网络
data mining 数据挖掘
知识工程 knowledge engineering
clustering 聚类
高性能计算 high-performance computing
联机事务处理
联机事务分析
分布式数据库 distributed database
主动数据库 active database
知识库 knowledge base
数据流 data stream
交互式挖掘 interaction mining
模式发现 pattern discovery
数据压缩 data compression
面向对象数据库 object-oriented database
粗糙集 rough set
HITS --->Hyperlink - Induced Topic Search
幅度调整 amplitude scaling
偏移变换 offset transaction
原子序列匹配Atomic Matching

概念解释题

Apriori算法: 一种挖掘关联规则的频繁项集算法，是通过项目集元素的不断增长来逐步完成频繁项目集发现的，先生成1-频繁项目集，再生成2-频繁项目集L2，一直到不能再扩展频繁项目集的元素数目而停止。
Frequent Pattern Tree：不使用侯选集，直接压缩数据库成一个频繁模式树，通过频繁模式树可以直接得到频集。进行 2次数据库扫描：一次对所有1-项目的频度排序；一次将数据库信息转变成紧缩内存结构。
数据分析技术( 数据挖掘 )是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的信息，以及最终可理解的模式的非平凡过程。
数据转换就是将数据进行转换或归并。
大数据 ：指一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征
信息熵：对随机变量不确定度的度量
事务数据库是由一系列具有唯一标识的数据组成的。
聚类就是将多个对象分为多个类或簇
广义知识: 描述类别特征的概括性知识。
权威页面是指包含需求信息的最佳资源页面
中心页面是指包含权威页面连接的页面
PAM：Partitioning Around Medoid，围绕中心点的划分，选用簇中位置最中心的对象作为代表对象，试图对n个对象给出k个划分。最初随机选择k个对象作为中心点，该算法反复地用非代表对象来代替代表对象，试图找出更好的中心点，以改进聚类的质量。
类知识（Class）:刻画了一类共同特征事物
ID3算法的核心思想： 在决策树的每一个非叶子结点划分之前，先计算每一个属性所带来的信息增益，选择最大信息增益的属性来划分。
EM算法的核心思想：是一种从不完全数据或有数据丢失的数据集（存在隐含变量）中求解概率模型参数的最大似然估计方法。
WeB挖掘的概念：数据挖掘在Web上的应用，它利用数据挖掘技术从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息。
粗糙集理论 : 一种研究不精确、不确定性知识的数学工具
网络爬虫: 自动地抓取 Web 信息的程序或者脚本，为搜索引擎和大数据分析提供数据来源。
书上的定义为（分解超文本结构的工具）
KDD是一个多步骤的处理过程，一般分为问题定义、数据采集、数据预处理（清洗、转换、描述、选择、抽取）、数据挖掘、模式评估
分类：从历史数据纪录中推导出对给定数据的推广描述，对未来数据进行类别预测。
分类的两个步骤:建模和使用。
1、建立一个模型，就是通过分析训练数据集来构造分类模型
2、测试模型进行分类，如果模型准确率高，就对未知的数据元组进行分类
基于距离分类算法问题的描述：给定一个事务数据库D={t1,t2,t3,...,tn},和一组类C={c1,c2,c3,...,cm},分类问题是确定一个映射，使得每一个元组ti被分配到一个类中去。对于任意的元组如果存在一个Cj，使得sim(ti,Cj)>=sim(ti,Cp),则ti被分配到Cj中去。
k-近邻（kNN, k-NearestNeighbor）是在训练集中选取离输入的数据点最近的k个邻居，根据这个k个邻居中出现次数最多的类别（最大表决规则），作为该数据点的类别。
增益比率gain ratio ：增益度量Gain(S，A)和分裂信息度量SplitInformation(S，A)
简述决策树算法的重要步骤

决策树分类算法分为两个步骤：决策树生成和决策树修剪

生成算法的思路：

构造的结果是一颗二叉树或者多叉树，树的边是逻辑判断的分支结构
1. 以代表训练样本的单只节点开始建树
2. 如果样本都在同一个类，则该节点成为树叶，并用该类标记
3. 否则，算法使用信息增益作为划分依据，选择最好的将样本分类的属性进行划分（重复这个步骤）
4. 该属性成为节点或者划分依据（注意：连续型数值必须离散化）
5. 对测试属性每个已知的值，创建一个分支，并据此划分样本
6. 递归划分步骤，直到给定节点都属于同一类或者没有剩余属性可以再进行划分或者分支没有样本，则停止。
决策树修剪
预先剪枝（Pre-Pruning）：在构造决策树的同时进行剪枝
后剪枝（Post-Pruning）：决策树构造完成后进行剪枝，从树的叶子开始剪枝，逐步向根的方向剪剪枝用于克服噪声
序列模式挖掘主要有五个步骤：排序阶段、大项集阶段、转换阶段、序列阶段以及选最大阶段

排序阶段 :对数据库进行排序（Sort)将原始的数据库转换成序列数据库。
大项集阶段 找出所有频繁的项集（即大项集）组成的集合L。
转换阶段 :在寻找序列模式的过程中，我们要不断地进行检测一个给定的大序列集合是否包含于一个客户序列中。
序列阶段 : 利用转换后的数据库寻找频繁的序列，即大序列（Large Sequence）
选最大阶段 : 在大序列集中找出最长序列（Maximal Sequences）。

AprioriAll也是如此：
1) 排序阶段。将事务数据库转换成由客户序列组成的数据库。

2) 频繁项集阶段。找出所有频繁项集组成的集合L。也同步得到所有频繁1-序列组成的集合。

3) 转换阶段。在找序列模式的过程中，要不断地进行检测一个给定的频繁集是否包含于一个客户序列中。

4) 序列阶段。利用已知的频繁集的集合来找到所需的

序列。类似于关联的Apriori算法。

5）最大化阶段。在频繁序列模式集合中持出最大频繁序列模式集合

基于规范变换的查找方法：Agrawal把X与Y的相似性比较问题分为三个子问题：原子序列匹配；窗口缝合；子序列排序。

原子序列匹配： 采用了滑动窗口技术。将序列映射为若干长度的窗口，然后对这些窗口进行幅度缩放与偏移变换。

窗口缝合（Window Stitching）即子序列匹配，将相似的原子连接起来形成比较长子序列

子序列排序: 从没有重叠的子序列匹配中找出匹配得最长的那些序列

Web挖掘依靠它所挖掘的信息来源可以分为：

Web内容挖掘（Web Content Mining） ：对站点的 Web页面的各类信息进行挖掘。

Web访问信息挖掘（Web Usage Mining） ：对用户访问Web时在服务器留下的访问记录挖掘

Web结构挖掘（Web Structure Mining）： Web结构挖掘是对Web页面之间的链接结构挖掘

计算题、填空题

算法 4-1 基于距离的分类算法

输入：每个类的中心C1，…，Cm ；待分类的元组t 。

输出：输出类别c 。

（ 1 ） dist= ∞ ； // 距离初始化

（ 2 ） FOR i=1 to m DO

（ 3 ） IF dis ( c i ， t ) <dist THEN BEGIN

（ 4 ） c ← i ；

（ 5 ） dist←dist(c i ， t ) ；

（ 6 ） END；

（ 7 ） flag t with c

算法 4-2 K-近邻分类算法

输入：训练数据T ；近邻数目K；待分类的元组t。

输出：输出类别c 。

（ 1 ） N =  ；

（ 2 ） FOR each d ∈ T DO BEGIN

（ 3 ） IF |N |≤ K THEN

（ 4 ） N = N ∪ { d } ；

（ 5 ） ELSE

（ 6 ） IF  u ∈ N such that sim ( t ， u ) 〈 sim ( t ， d ) THEN

BEGIN

（ 7 ） N = N - { u } ；

（ 8 ） N = N ∪ { d } ；

（ 9 ） END

（ 10 ） END

（ 11 ） c=class to which the most u ∈ N // 这一步属于最大表决

算法5-1 k -means算法

输入：簇的数目k和包含n个对象的数据库。

输出： k 个簇，使平方误差准则最小。

（1)assign initial value for means; /*任意选择 k 个对象作为初始的簇中心；*/

(2) REPEAT

(3) FOR j =1 to n DO assign each x j to the closest clusters;

(4)FOR i =1 to k DO Xi=(X1+.....+Xi)/Ci / *更新簇平均值*/

(5) Compute E /*计算准则函数 E */

(6) UNTIL E 不再明显地发生变化

k-均值过程

(a) 给定集合D，有n个样本点

(b) 随机指定k个点，作为k个子集的质心

(d) 对k个子集重新计算质心

(e) 根据新的质心，重复操作(c)

(f) 重复操作(d)和(e)，直至结果足够收敛或者不再变化

算法 5-3 AGNES （自底向上凝聚算法）

输入：包含 n 个对象的数据库，终止条件簇的数目 k 。

输出： k 个簇，达到终止条件规定簇数目。

(1) 将每个对象当成一个初始簇；

(2) REPEAT

(3) 根据两个簇中最近的数据点找到最近的两个簇；

(4) 合并两个簇，生成新的簇的集合；

(5) UNTIL 达到定义的簇的数目；

算法 5-4 DIANA（自顶向下分裂算法）

输入：包含 n 个对象的数据库，终止条件簇的数目 k 。

输出： k 个簇，达到终止条件规定簇数目。

（ 1 ）将所有对象整个当成一个初始簇；

（ 2 ） FOR （ i=1; i≠k; i++) DO BEGIN

（ 3 ）在所有簇中挑出具有最大直径的簇C ；

（ 4 找出C 中与其它点平均相异度最大的一个点 p 并把 p 放入splinter group，剩余的放在 old party 中

（ 5 REPEAT

（ 6 ）在old party 里找出到最近的 splinter group 中的点的距离不大于到old party 中最近点的距离的点，并将该点加入splinter group。

（ 7 ） UNTIL 没有新的 old party 的点被分配给 splinter group ；

（ 8 ） splinter group和 old party 为被选中的簇分裂成的两个簇，与其它簇一起组成新的簇集合。

（ 9 ） END

基于随机冲浪的pagerank算法

随

HITS（Hyperlink-Induced Topic Search）是遵照寻找权威页面和中心页面的典型方法

FPtree算法计算过程

终......

cc睡醒了

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘复习

英文转中文泛化（generalization）过拟合（overfitting）欠拟合： underfitting 关联规则（association rule）项：（Item）交易：（购物篮，Transcation）关联规则：Association Rule Mining 混淆矩阵：也称误差矩阵，Confusion Matrix ROC曲线：Receiver Operating Characteristic Curve，
复制链接

扫一扫