机器学习之朴素贝叶斯法(naive Bayes)

最新推荐文章于 2022-03-30 19:44:13 发布

天真的和感伤的想象家

最新推荐文章于 2022-03-30 19:44:13 发布

阅读量214

点赞数

分类专栏： Machine Learning 文章标签：机器学习 python 数据分析深度学习统计学

本文链接：https://blog.csdn.net/deepsprings/article/details/105336842

版权

Machine Learning 专栏收录该内容

18 篇文章 4 订阅

订阅专栏

前言： 学习笔记，记录下对于一些问题的记录和理解，复习和加深记忆用，挖坑补坑用。

参考：李航《统计学习方法》

0. 基本内容

$P(Y=c_k|X=x) = \frac{P(Y=c_k)P(X=x|Y=c_k)}{P(X=x)}$

1. 问题与理解

贝叶斯定理，朴素贝叶斯法，贝叶斯估计，极大似然估计
- 贝叶斯定理(生成模型)： $P(Y=c_k|X=x) = \frac{P(Y=c_k)P(X=x|Y=c_k)}{P(X=x)}$
- 朴素贝叶斯法：是一种方法，用于分类。是基于贝叶斯定理同时对条件概率分布作了特征条件独立假设。独立假设即： $P(X=x|Y=c_k) = \sum_{i=1}^{n} P(X^{(i)} = x^{(i)}|Y=c_k)$ 。这一假设大大简化了模型，同时也是朴素贝叶斯法的由来。
  该算法可表述为，对于给定实例x，确定实例的分类y：
  $=arg\ \underset{c_k}{max}\ P(Y=c_k)P(X|Y=c_k)$
- 贝叶斯估计，极大似然估计：是一种参数估计方法，都可用于朴素贝叶斯法中的参数估计。注：朴素贝叶斯法参数并非一定用贝叶斯估计求得。
极大似然估计与贝叶斯估计推导

对于一个事件Y，可能取值为 ${y_1, y_2, y_3, ..., y_k}$ 。现对事件Y进行试验，得到一个样本Y’： ${y_4, y_1, y_1, ...., y_k}$ ，在已知样本情况下，估计Y对应取值的概率（离散估计取值概率，连续估计概率密度）。
(参考实例：事件Y==>掷骰子; 可能取值==> {1,2,3,4,5,6}; 投掷n次，样本==>{2, 3, 6, 2, …}, 估计P(Y=n) n=1,2,3,4,5,6)。

若设 ${y_1, y_2, y_3, ..., y_k}$ 对应取值概率设为 ${\theta_1, \theta_2, \theta_3, ..., \theta_k}$ ，即估计 $\theta_i$ 值。
- 极大似然估计
  
  其假定 $\theta_i$ 为定值。
  
  对于样本 ${y_4, y_1, y_1, ...., y_k}$ ，似然函数表示为：
  $l(\theta) = \theta_4 \theta_1 \theta_1 .....\theta_k=\theta_1^{m_1} \theta_2^{m_2} \theta_3^{m_3}...\theta_k^{m_k} \ (m_k表示样本中y_k出现的次数)$
  取对数：
  $ln(l(\theta)) = m_1ln\theta_1+m_2ln\theta_2+...+m_kln\theta_k$
  问题等价于：
  $\left\{\begin{aligned}求解\theta：\ \ \ \ \ \ \ \underset{\theta}{max}\ ln(l(\theta)) \\s.t.\ \ \theta_1+\theta_2+...\theta_k = 1 \end{aligned}\right.$
  此为有等式约束的最优化问题，使用拉格朗日乘子法，构建拉格朗日函数：
  $L(\theta) = ln(l(\theta)) + \lambda(\theta_1+\theta_2+...+\theta_k-1)$
  求偏导 $\frac{\partial L(\theta)}{\partial \theta_i} = 0$ 得：
  $\frac{\partial L(\theta)}{\partial \theta_i} = 0\ \ \ \ => \ \ \ \ \left\{ \begin{aligned}\\ \frac{m_1}{\theta_1}+\lambda = 0 & => &\theta_1=-\frac{m_1}{\lambda}\\ \frac{m_2}{\theta_2}+\lambda = 0 & => &\theta_2=-\frac{m_2}{\lambda} \\ ...... \\ \frac{m_k}{\theta_k}+\lambda = 0 & => &\theta_k=-\frac{m_k}{\lambda} \end{aligned} \right.$
  再根据 $\theta_1+\theta_2+...\theta_k = 1$ 得：
  $\theta_1+\theta_2+...\theta_k = 1\ \ \ \ => \ \ \ \ \left\{ \begin{aligned}\\ \lambda = -(m_1+m_2+m_3+...+m_k) = -N\\ \theta_i = \frac{m_i}{N} \end{aligned} \right.$
  也即：
  $\hat\theta_i = \frac{m_i}{N}$
- 贝叶斯估计
  
  其假定 $\theta_i$ 并非定值，受到一定限制，例如大致服从某一分布。
  
  对于上述例子，假设 $\theta$ 服从某一先验分布，如 $P(\theta) = \eta \theta_1^{\alpha_1} \theta_2^{\alpha_2} ...\theta_k^{\alpha_k}$
  
  则根据贝叶斯估计：
  $p(\theta|Y') = \frac{p(\theta) p(Y'|\theta)}{p(Y)} \\$
  $\underset{\theta}{max}\ p(\theta|Y') => \underset{\theta}{max}\ p(\theta)p(Y'|\theta)\\$
  其中：
  $p(\theta) = \eta \theta_1^{\alpha}\theta_2^{\alpha}...\theta_k^{\alpha} \\$
  $p(Y'|\theta)$ 也即使前面极大似然估计中 $l(\theta)$ ：
  $p(Y'|\theta) = \theta_4 \theta_1 \theta_1 .....\theta_k=\theta_1^{m_1} \theta_2^{m_2} \theta_3^{m_3}...\theta_k^{m_k}\\$
  最优化问题：
  $\underset{\theta}{max}\{ p(\theta)p(Y'|\theta)\}=>\underset{\theta}{max}\{\eta \theta_1^{\alpha}\theta_2^{\alpha}...\theta_k^{\alpha}\theta_1^{m_1}\theta_2^{m_2}...\theta_k^{m_k}\}=>\underset{\theta}{max}\{\theta_1^{\alpha+m_1}\theta_2^{\alpha+m_2}...\theta_k^{\alpha+m_k}\}$
  该最优化问题的解，根据极大似然估计的解决步骤，可以得出：
  $\hat \theta_i = \frac{m_i+\alpha}{N+k\alpha}$
极大似然估计与贝叶斯估计的比较
- 当样本中测试数量足够大时，即 N 足够大时，可以根据式子看出，极大似然估计与贝叶斯估计结果等价。
- 当N很小的时候，极有可能样本中出现某种Y取值情况数为零的情况，即 $m_i=0$ ，因此会出现 $\theta_i=0$ ，导致 $l(\theta)=0$ 。此时最优化问题求解就会有问题。对比于极大似然估计，就可以杜绝这种问题的发生。特别的，当 $\alpha=1$ 时，为拉普拉斯平滑；当 $\alpha=0$ 时，就为极大似然估计。
- 极大似然估计的先验分布，可根据具体情况选择。常用的有高斯分布，多项式分布等。

2. 实例与实现

训练数据
X : 特征; Y : 类标记预测：x = (2, S)

	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15
X_1	1	1	1	1	1	2	2	2	2	2	3	3	3	3	3
X_2	S	M	M	S	S	S	M	M	L	L	L	M	M	L	L
Y	-1	-1	1	1	-1	-1	-1	1	1	1	1	1	1	1	-1

代码实现

import numpy as np
import pandas as pd

class bayes():

	def __init__(self):
		pass
	
	# 计算p(y)
	def Py(self):
		y_info = self.df.y.value_counts()
		K = y_info.count()
		self.Py = (y_info + self.l)/ float((y_info.sum() + K*self.l))
	#	print('Py: ')
	#	print(self.Py)

	# 计算p(x|y)	
	def Px_y(self):
		# print(self.df)
		self.Px_y = pd.DataFrame()
		S = [self.x[i].value_counts().shape[0] for i in self.x.columns]
		y_ = self.df.y.value_counts().index
		for _y in y_:
			y_df = self.df.loc[self.df['y'] == _y]
			# print(y_df)
			dfxy = pd.DataFrame()
			for i,_x in enumerate(self.x.columns):	
				_x_info = y_df[_x].value_counts()
				xy = (_x_info + self.l)/ float((y_df.count().y + S[i]*self.l))
				# print(xy)
				df = pd.DataFrame({'%s'%_y:xy})
				dfxy = dfxy.append(df)
				# print(dfxy)
			self.Px_y =pd.concat([self.Px_y, dfxy], axis = 1, sort = False)
	#	print('Px_y: ')
	#	print(self.Px_y)

	# 参数估计:当l=0时，采用极大似然估计;l=1时，拉普拉斯平滑
	def fit(self, x_data, y_label, l = 0):
		x_data = np.array(x_data)
		y_data = np.array(y_label)
		'''
		if len(x_data.shape) == 1:
			x_col = ['x_0']
		else:
			x_col = ['x_%s'%i for i in range(x_data.shape[-1])] 
		'''
		self.x = pd.DataFrame(x_data)
		self.y = pd.DataFrame(y_data, columns = ['y'])
		df = pd.concat([self.x,self.y], axis=1)
		
		self.l = l
		self.df = df
		self.Py()
		self.Px_y()

	# 分类预测
	def predict(self, x):
		predict_dic = {}
		y_ = self.df.y.value_counts().index
		for _y in y_:
			py = self.Py[_y]
			for _x in x:
				py *= float(self.Px_y[str(_y)][str(_x)])
			predict_dic[_y] = py
		# 结果输出包含各类概率的字典
		#result = sorted(predict_dic.items(), key = lambda x:x[1], reverse = True)
		#print(result)
		return predict_dic

if __name__ == '__main__':
	x_data = [ 
		[1, 'S'], [1, 'M'], [1, 'M'], [1, 'S'], [1, 'S'],\
		[2, 'S'], [2, 'M'], [2, 'M'], [2, 'L'], [2, 'L'],\
		[3, 'L'], [3, 'M'], [3, 'M'], [3, 'L'], [3, 'L']\
		]
	y_label =[-1, -1, 1, 1, -1, -1, -1, 1, 1, 1, 1, 1, 1, 1, -1] 


	B = bayes()
	B.fit(x_data, y_label, 1)
	p = B.predict([2, 'S'])
	print(p)

结果展示：
使用贝叶斯估计参数，得到预测分类的概率分别为
在这里插入图片描述

实例应用：

垃圾邮件过滤: 训练一个模型，判定邮件是垃圾邮件与否（网上实现较多；挖坑）
新闻文本分类: 给定一篇文章，判定其所属类型。

天真的和感伤的想象家

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习之朴素贝叶斯法(naive Bayes)

前言：学习笔记，记录下对于一些问题的记录和理解，复习和加深记忆用，挖坑补坑用。参考：李航《统计学习方法》0. 基本内容P(Y=ck∣X=x)=P(Y=ck)P(X=x∣Y=ck)P(X=x)P(Y=c_k|X=x) = \frac{P(Y=c_k)P(X=x|Y=c_k)}{P(X=x)}P(Y=ck∣X=x)=P(X=x)P(Y=ck)P(X=x∣Y=ck)1. 问题...
复制链接

扫一扫