英文转中文
- 泛化(generalization)
- 最长序列(Maximal sequence)
-
联合概率(joint probability)
-
后验概率(posterior probability)
-
先验概率(prior probability)
- 子序列重叠(Overlap)
- 自回归 (Auto Regressive,简称AR)模型
- 移动回归模型(Moving Average,简称MA)
- 完全匹配(Whole Matching)
- 子序列匹配(Subsequence Matching)
- 自回归移动平均(Auto Regressive Moving Average,简称ARMA)
- 时间序列(Time Series)
- DBSCAN:Density-Based Spatial Clustering of Applications with Noise,噪声环境下的密度聚类算法
- 基于密度的方法:Density-based approach
- 信息检索(Information Retrieval,IR)
- k-中心点( K-medoids )选择簇中位置最中心的对象
- 概念学习模型CLS concept learning system
- ID3算法:Iterative Dichotomiser 3,迭代二叉树3代
- 预先剪枝 pre-prunning
- 信息增益 information gain
- 信息增益比 gain ratio
- 后剪枝 post-prunning
- 分类回归树 classification and regression tree(CART)
- k-近邻(kNN, k-NearestNeighbor)k-最临近方法
- Frequent Pattern Tree 频繁模式树
- 项目序列(Itemsequence)
- 闭合频繁项集:closed frequent Itemset
- 过拟合(overfitting)
- 欠拟合: underfitting
- 关联规则(association rule)
- 项:(Item)
- 交易:(Transcation)
- 关联规则:Association Rule Mining
- 混淆矩阵:也称误差矩阵,Confusion Matrix
- 知识发现:Knowledge Discovery in Database
- CNN:Convolution Neural Network卷积神经网络
- DBN:Deep Belief Network, 深度信念网络
- data mining 数据挖掘
- 知识工程 knowledge engineering
- clustering 聚类
- 高性能计算 high-performance computing
- 联机事务处理
- 联机事务分析
- 分布式数据库 distributed database
- 主动数据库 active database
- 知识库 knowledge base
- 数据流 data stream
- 交互式挖掘 interaction mining
- 模式发现 pattern discovery
- 数据压缩 data compression
- 面向对象数据库 object-oriented database
- 粗糙集 rough set
- HITS --->Hyperlink - Induced Topic Search
- 幅度调整 amplitude scaling
- 偏移变换 offset transaction
- 原子序列匹配Atomic Matching
概念解释题
-
Apriori算法: 一种挖掘关联规则的频繁项集算法, 是通过项目集元素的不断增长来逐步完成频繁项目集发现的,先生成1-频繁项目集,再生成2-频繁项目集L2,一直到不能再扩展频繁项目集的元素数目而停止。
-
Frequent Pattern Tree: 不使用侯选集,直接压缩数据库成一个 频繁模式树 ,通过频繁模式树可以直接得到频集。进行 2次 数据库扫描:一次对所有1-项目的频度排序;一次将数据库信息转变成紧缩内存结构。
-
数据分析技术( 数据挖掘 )是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的 、潜在有用的信息,以及 最终可理解的模式 的非平凡过程。
-
数据转换 就是将数据进行转换或归并。
-
大数据 : 指一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征
-
信息熵: 对随机变量不确定度的度量
-
事务数据库是由一系列具有唯一标识的数据组成的。
-
聚类就是将多个对象分为多个类或簇
-
广义知识: 描述类别特征的概括性知识 。
-
权威页面是指包含需求信息的最佳资源页面
-
中心页面是指包含权威页面连接的页面
-
PAM:Partitioning Around Medoid,围绕中心点的划分,选用簇中位置最中心的对象作为代表对象,试图对n个对象给出k个划分。最初随机选择k个对象作为中心点,该算法反复地用非代表对象来代替代表对象,试图找出更好的中心点,以改进聚类的质量。
-
类知识 (Class):刻画了一类共同特征事物
-
ID3算法的核心思想: 在决策树的每一个非叶子结点划分之前,先计算每一个属性所带来的信息增益, 选择最大信息增益的属性来划分。
- EM算法的核心思想:是一种从不完全数据或有数据丢失的数据集(存在隐含变量)中求解概率模型参数的最大似然估计方法。
-
WeB挖掘的概念: 数据挖掘在Web上的应用 ,它利用数据挖掘技术从与WWW相关的 资源 和 行为 中抽取感兴趣的、有用的模式和隐含信息。
-
粗糙集理论 : 一种研究不精确、不确定性知识的数学工具
-
网络爬虫: 自动地抓取 Web 信息的程序或者脚本,为搜索引擎和大数据分析提供数据来源。
书上的定义为(分解超文本结构的工具) -
KDD是一个多步骤的处理过程,一般分为问题定义、数据采集、 数据预处理(清洗、转换、描述、选择、抽取)、 数据挖掘、 模式评估
-
分类 : 从 历史数据 纪录中推导出对给定数据的 推广描述 ,对 未来数据 进行 类别预测 。
-
分类的两个步骤:建模和使用。
1、建立一个模型,就是通过分析 训练数据集来构造分类模型
2、测试模型进行分类,如果模型准确率高,就对未知的数据元组进行分类 -
基于距离分类算法问题的描述:给定一个事务数据库D={t1,t2,t3,...,tn},和一组类C={c1,c2,c3,...,cm},分类问题是确定一个映射,使得每一个元组ti被分配到一个类中去。对于任意的元组如果存在一个Cj,使得sim(ti,Cj)>=sim(ti,Cp),则ti被分配到Cj中去。
-
k-近邻 (kNN, k-NearestNeighbor)是在训练集中选取离输入的数据点最近的k个邻居,根据这个k个邻居中出现次数最多的类别( 最大表决规则 ),作为该数据点的类别。
-
增益比率gain ratio :增益度量Gain(S,A)和分裂信息度量SplitInformation(S,A)
-
简述决策树算法的重要步骤决策树分类算法分为两个步骤:决策树生成和决策树修剪生成算法的思路:构造的结果是一颗二叉树或者多叉树,树的边是逻辑判断的分支结构
- 以代表训练样本的单只节点开始建树
- 如果样本都在同一个类,则该节点成为树叶,并用该类标记
- 否则,算法使用信息增益作为划分依据,选择最好的将样本分类的属性进行划分(重复这个步骤)
- 该属性成为节点或者划分依据(注意:连续型数值必须离散化)
- 对测试属性每个已知的值,创建一个分支,并据此划分样本
- 递归划分步骤,直到给定节点都属于同一类或者没有剩余属性可以再进行划分或者分支没有样本,则停止。
-
决策树修剪
预先剪枝(Pre-Pruning):在构造决策树的 同时 进行剪枝
后剪枝(Post-Pruning):决策树构造完成后进行剪枝, 从树的叶子开始剪枝,逐步向根的方向剪 剪枝用于克服噪声 -
序列模式挖掘主要有五个步骤:排序阶段、大项集阶段、转换阶段、序列阶段以及选最大阶段- 排序阶段 :对数据库进行排序(Sort)将原始的数据库转换成序列数据库。
- 大项集阶段 找出所有频繁的项集(即大项集)组成的集合L。
- 转换阶段 :在寻找序列模式的过程中,我们要不断地进行检测一个给定的大序列集合是否包含于一个客户序列中。
- 序列阶段 : 利用转换后的数据库寻找频繁的序列,即大序列(Large Sequence)
- 选最大阶段 : 在大序列集中找出最长序列(Maximal Sequences)。
AprioriAll也是如此:1) 排序阶段 。将事务数据库转换成由客户序列组成的数据库。2) 频繁项集阶段 。找出所有频繁项集组成的集合L。也同步得到所有频繁1-序列组成的集合。3) 转换阶段 。在找序列模式的过程中,要不断地进行检测一个给定的频繁集是否包含于一个客户序列中。4) 序列阶段 。利用已知的频繁集的集合来找到所需的序列。类似于关联的Apriori算法。5) 最大化阶段 。在频繁序列模式集合中持出最大频繁序列模式集合
基于规范变换的查找方法:Agrawal把X与Y的相似性比较问题分为三个子问题:原子序列匹配;窗口缝合;子序列排序。
-
原子序列匹配 : 采用了 滑动窗口技术 。 将序列映射为若干长度的窗口,然后对这些窗口进行 幅度缩放与偏移变换 。
-
窗口缝合(Window Stitching)即子序列匹配, 将相似的原子连接起来形成比较长子序列
-
子序列排序: 从没有重叠的子序列匹配中找出匹配得最长的那些序列
Web挖掘依靠它所挖掘的信息来源可以分为:Web内容挖掘(Web Content Mining) : 对站点的 Web页面 的各类信息进行挖掘。Web访问信息挖掘(Web Usage Mining) :对用户访问Web时在 服务器 留下的访问记录挖掘Web结构挖掘(Web Structure Mining): Web结构挖掘是对Web页面之间的链接结构挖掘
计算题、填空题
算法 4-1
基于距离的分类算法
输入:
每个类的中心C1,…,Cm
;
待分类的元组t
。
输出:
输出类别c
。
(
1
)
dist=
∞
;
//
距离初始化
(
2
)
FOR i=1 to m DO
(
3
) IF dis
(
c
i
,
t
) <dist THEN BEGIN
(
4
)
c
← i
;
(
5
) dist←dist(c
i
,
t
)
;
(
6
) END;
(
7
)
flag
t
with
c
算法 4-2
K-近邻分类算法
输入:训练数据T
;
近邻数目K;待分类的元组t。
输出:
输出类别c
。
(
1
)
N
=
;
(
2
)
FOR each
d
∈
T
DO BEGIN
(
3
) IF |N
|≤
K
THEN
(
4
)
N
=
N
∪
{
d
}
;
(
5
) ELSE
(
6
) IF
u
∈
N
such that
sim
(
t
,
u
)
〈
sim
(
t
,
d
) THEN
BEGIN
(
7
)
N
=
N
- {
u
}
;
(
8
)
N
=
N
∪
{
d
}
;
(
9
) END
(
10
)
END
(
11
)
c=class to which the most u
∈
N //
这一步属于最大表决
算法5-1
k
-means算法
输入:
簇的数目k和包含n个对象的数据库
。
输出:
k
个簇,使平方误差准则最小。
(1)assign initial value for means; /*任意选择
k
个对象作为初始的簇中心;*/
(2) REPEAT
(3) FOR
j
=1 to
n
DO assign each
x
j
to the
closest clusters;
(4)FOR
i
=1 to
k
DO Xi=(X1+.....+Xi)/Ci / *更新簇平均值*/
(5) Compute E /*计算准则函数
E
*/
(6) UNTIL
E
不再明显地发生变化
k-均值过程
(a) 给定集合D,有n个样本点
(b) 随机指定k个点,作为k个子集的质心
(c) 根据样本点与k个质心的距离远近,将每个样本点划归最近质心所在的子集
(d) 对k个子集重新计算质心
(e) 根据新的质心,重复操作(c)
(f) 重复操作(d)和(e),直至结果足够收敛或者不再变化
算法
5-3 AGNES
(自底向上凝聚算法)
输入
:
包含
n
个对象的数据库,终止条件簇的数目
k
。
输出
:
k
个簇,达到终止条件规定簇数目。
(1)
将每个对象当成一个初始簇;
(2) REPEAT
(3)
根据两个簇中最近的数据点找到最近的两个簇;
(4)
合并两个簇,生成新的簇的集合;
(5) UNTIL
达到定义的簇的数目;
算法
5-4
DIANA(自顶向下分裂算法)
输入:包含
n
个对象的数据库,终止条件簇的数目
k
。
输出:
k
个簇,达到终止条件规定簇数目。
(
1
)将所有对象整个当成一个初始簇;
(
2
)
FOR
(
i=1; i≠k; i++) DO BEGIN
(
3
) 在所有簇中挑出具有最大直径的簇C
;
(
4
找出C
中与其它点平均相异度最大的一个点
p
并把
p
放入splinter group,剩余的放在
old party
中
(
5
REPEAT
(
6
) 在old party
里找出到最近的
splinter group
中的点的距离 不大于到old party
中最近点的距离的点,并将该点加入splinter group。
(
7
) UNTIL 没有新的
old party
的点被分配给
splinter group
;
(
8
) splinter group和
old party
为被选中的簇分裂成的两个簇,与其它簇一起组成新的簇集合。
(
9
)
END
基于随机冲浪的pagerank算法
随
HITS(Hyperlink-Induced Topic Search)是遵照寻找权威页面和中心页面的典型方法
![](https://i-blog.csdnimg.cn/blog_migrate/3f1071da11e6a6a530287c14b0e288bd.png)
终......