贝叶斯分类和因果学习
贝叶斯决策论
贝叶斯决策论(Bayesian decision theory)是在概率框架下实施 决策的基本方法。
对分类问题,在所有相关概率都已知的理想情形下,贝叶斯决策 考虑如何基于这些概率和误判损失来选择最优的类别标记。
朴素贝叶斯分类器
贝叶斯网络
贝叶斯网 (Bayesian network)亦称“信念网”(brief network),它借 助有向无环图 (Directed Acyclic Graph, DAG)来刻画属性间的依赖关 系,并使用条件概率表 (Conditional Probability Table, CPT)来表述属 性的联合概率分布。
高维回归及变量选择
线性回归
线性回归(linear regression)目的 – 学得一个线性模型以尽可能准确地预测实值输出标记
多元线性回归
图模型
分类:
⚫ 有向图:贝叶斯网
使用有向无环图表示变量之间的依赖关系
⚫ 无向图:马尔可夫网
使用无向图表示变量间的相关关系
隐马尔可夫模型(Hidden Markov Model)
?时刻的状态
x
t
x_t
xt仅依赖于? − 1时刻状态
x
t
−
1
x_{t−1}
xt−1,与其余n − 2个 状态无关
模型推断
变量消去法实际上是利用了乘法对加法的分配律,将对多个变量的 积的求和问题转化为对部分变量交替进行求积和求和的问题。这种 转化使得每次的求和和求积运算被限制在局部,仅和部分变量有关, 从而简化了计算
谱聚类
谱聚类(Spectral Clustering, SC)是一种基于图论的聚类方 法—将带权无向图划分为两个或两个以上的最优子图(subGraph),使子图内部尽量相似,而子图间距离尽量较远, 以达到常见的聚类的目的。
损失函数(目标函数):
客户关系管理
协同推荐模型
推荐系统是一种专门面向客户的网络信息过滤技术,其核心是推荐算法。
三种推荐技术:
人口统计学的推荐
–根据系统客户的基本信息发现客户的相关程度
–需要对所有客户建立人口统计学档案
基于内容的推荐
–根据所推荐项目的元数据,发现项目或者内容的相关性
–需要对项目进行建模,推荐质量依赖于对项目描述的完整程度
协同过滤的推荐算法
–解决传统算法在数据的稀疏性和项目数较多情况下的推荐设计问 题
–推荐的目标是预测用户对某些未知条目的评分
基于邻域的算法
相似性的度量
矩阵分解模型
降维是一种有效的提高运算效率和过滤数据噪声的方法, 比较直接的降维方法是奇异值分解(SVD分解)。
矩阵分解模型的目的在于通过矩阵分解提取出客户和项目 的潜在特性。
客户价值随机模型
企业从客户处所获取的收益和企业为吸引及服务客户的成本相 比较,收益超过成本的部分即客户价值。
社会网络分析
社会网络概念与发展
社会网络分析是观察社会关系和社会结构的研究方法。
社群挖掘算法
基于模块值的社群挖掘方法:
模块化定义:指网络中连接社团结构内部顶点的边占的比 例与另外一个随机网络中连接社团结构内部顶点的边所占 比例的期望值相减得到的差值。
构造方法:保持每个顶点的社团属性不变,顶点间的边根 据顶点的度随机连接。
用?函数定量描述社团划分的模块化水平
自然语言模型和文本
自然语言处理(Natural Language Processing, NLP): 使用自然语言同计算机进行通信的技术,目标是使计算机理解 自然语言,从而提高人们利用信息技术表达和理解文字的效率。
四个发展阶段
◆ 向量空间模型及统计语言模型
◆ 浅语义分析
◆ 基于概率的模型
◆ 主题模型