性别预测--再谈贝叶斯【原创】

 

作者:alert or einyboy

摘要:贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文通过对男,女姓名集进行训练,利用贝叶斯分类器实现对给定姓名的姓名识别。

 

一、  问题提出

请问“张飞、赵云、关羽”是男是女的?“西施、貂蝉、王昭君、杨玉环”是男是女呢?我想有点文化的人都知道上面的答案。那么“张靓、林勇、林兰”的性别呢?显然多数人会是下面的答案:

张靓、木兰是女性。

林勇是男性。

人得出上面的答案并不用思考太久,这是一种普通共识行为。

那给计算机一个人的姓名,计算机能不能回答出这个人的性别呢?

 

二、  问题数学模型化

对于“那给计算机一个人的姓名,计算机能不能回答出这个人的性别呢?

”这样的问题我们先符号化,用N表示姓名,S表示性别,M代表男,F代表女。那么数学化为求下列两个条件概率的可能性:

P(S=M|Name) = ?            P(S=F|N) = ?

那么这个人的性别为上面概率最大的一个。

怎么计算上面的概率呢?由贝叶斯定理得:

 

 

 

P(S=M|N),P(S=F|N)称为后验概率.

通过姓名训练集可以计算出下面的概率:

P(N|S=M),P(N|S=F),P(S=M),P(S=F)

 

 

P(S=M)=训练集中的男性姓名频数。

P(S=F)=训练集中的女性姓名频数。

 

三、  模型的进一步改进

上面的模型要多大的训练集才具有统计意义呢?这个问题只能通过实验数据进行验证。我们知道中国人的多数姓名有下面的规律:

1.  姓是家族相关的,对性别分类没有太多的帮助

2.  中间的名一般是家族一代的标识,也对性别分类没有太多的指导意义。

3.  名的最后一个字则是带了阴阳的,对分类有足够的意义

 

用LN代表姓名最后一个字,那么上面的模型变为:

 

 

四、    算法流程

1.  统计各姓名中最后一个字出现在男性集的概率P(LN|S=M)和出现在女性集的概率P(LN|S=F)

2.  计算男性姓名概率P(S=M)和女性姓名概率

3.  计算后验概率P(S=M|LN),P(S=F|LN)

4.  如果P(S=M|LN)>>P(S=F|LN) 则为男性,否则为女性 

程序说明:

Male.txt是男性姓名集

Female.txt是女性姓名集

Statistics.txt 为相应的统计数据

 

 相关程序:http://download.csdn.net/detail/huandaohack/3631175

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

huandaohack

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值