性别预测--再谈贝叶斯【原创】

最新推荐文章于 2022-11-26 22:36:58 发布

huandaohack

最新推荐文章于 2022-11-26 22:36:58 发布

阅读量2k

点赞数 3

分类专栏：机器学习文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huandaohack/article/details/6816693

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

作者：alert or einyboy

摘要：贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。本文通过对男，女姓名集进行训练，利用贝叶斯分类器实现对给定姓名的姓名识别。

一、问题提出

请问“张飞、赵云、关羽”是男是女的？“西施、貂蝉、王昭君、杨玉环”是男是女呢？我想有点文化的人都知道上面的答案。那么“张靓、林勇、林兰”的性别呢？显然多数人会是下面的答案：

张靓、木兰是女性。

林勇是男性。

人得出上面的答案并不用思考太久，这是一种普通共识行为。

那给计算机一个人的姓名，计算机能不能回答出这个人的性别呢？

二、问题数学模型化

对于“那给计算机一个人的姓名，计算机能不能回答出这个人的性别呢？

”这样的问题我们先符号化，用N表示姓名，S表示性别,M代表男，F代表女。那么数学化为求下列两个条件概率的可能性:

P(S=M|Name) = ? P(S=F|N) = ?

那么这个人的性别为上面概率最大的一个。

怎么计算上面的概率呢？由贝叶斯定理得:

P(S=M|N),P(S=F|N)称为后验概率.

通过姓名训练集可以计算出下面的概率:

P(N|S=M),P(N|S=F),P(S=M),P(S=F)

P(S=M)=训练集中的男性姓名频数。

P(S=F)=训练集中的女性姓名频数。

三、模型的进一步改进

上面的模型要多大的训练集才具有统计意义呢？这个问题只能通过实验数据进行验证。我们知道中国人的多数姓名有下面的规律：

1. 姓是家族相关的，对性别分类没有太多的帮助

2. 中间的名一般是家族一代的标识，也对性别分类没有太多的指导意义。

3. 名的最后一个字则是带了阴阳的，对分类有足够的意义

用LN代表姓名最后一个字，那么上面的模型变为:

四、算法流程

1. 统计各姓名中最后一个字出现在男性集的概率P(LN|S=M)和出现在女性集的概率P(LN|S=F)

2. 计算男性姓名概率P(S=M)和女性姓名概率

3. 计算后验概率P(S=M|LN),P(S=F|LN)

4. 如果P(S=M|LN)>>P(S=F|LN) 则为男性，否则为女性

程序说明：

Male.txt是男性姓名集

Female.txt是女性姓名集

Statistics.txt 为相应的统计数据

相关程序：http://download.csdn.net/detail/huandaohack/3631175

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

huandaohack 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。