NLTK学习笔记——使用叶贝斯分类器性别鉴定

最新推荐文章于 2023-10-26 22:14:00 发布

小南瓜^o^

最新推荐文章于 2023-10-26 22:14:00 发布

阅读量796

点赞数

分类专栏：自然语言处理文章标签： python nltk 性别鉴定

本文链接：https://blog.csdn.net/weixin_40943549/article/details/82789859

版权

本文介绍了使用Python的NLTK库，通过贝叶斯分类器进行性别鉴定的步骤，包括确定输入特征、划分数据集、构建分类器以及测试分类器效果。在实践中，选择名字的最后一个字母作为特征，最终达到了0.796的测试精度。

摘要由CSDN通过智能技术生成

一、性别鉴定步骤

根据名字男女规律进行判断

建立分类器

        • 1. 确定输入特征——特征提取器
        • 2. 划分数据集
      • 3. 使用训练集构建分类器
      • 4. 使用测试集测试分类器效果

二、叶贝斯分类器原理

特征：假设选取名字的最后一个字母为主要特征
类别：男性、女性
贝叶斯公式：P(B|A)=P(A|B)*P(B)/P(A)

贝叶斯分类器

三、实战代码

from nltk.corpus import names
import nltk
import random

#从数据集中打印出前10个名字
names_set = ([(name, 'male') for name in names.words('male.txt')] +
        [(name, 'female') for name in names.words('female.txt')])
print (names_s

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小南瓜^o^

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

NLTK学习笔记——Classify模块（2）

cangqiong112758的博客

03-03

2758

注：本文为实战过程作铺垫，因为参考原文是英文的，每看一遍都要琢磨一遍单词和语法，因此总结一下原文的过程，以备忘之用。本文主要介绍原文中利用NLTK进行twitter语句分类的过程，在下一节就记录本人的实战过程。参考：http://www.cnblogs.com/wentingtu/archive/2012/04/07/2436583.html 首先与NLTK的例子（即通过name判断gend

身高体重 贝叶斯分类判别男女

10-21

利用100个男女训练集样本，使用贝叶斯分类器判别男女。1.采用最大似然法和贝叶斯估计的方法获得密度函数，设定不同的先验概率，观察判别结果正确率。2.分别在男女相关不相关的情况下分析结果正确率。3.设定不同的风险，采用最小风险的Bayes决策重复上面实验。

参与评论您还未登录，请先登录后发表或查看评论

nltk-贝叶斯分类器

baiyi9153的博客

10-19

605

本人小白一枚，专业统计，之前做过质量工程，现转行将近一年，开始记录我的学习过程及踩过的坑。第一篇：用贝叶斯分类器（本文使用NLTK中的NaiveBayesClassifier）将5000多个样本进行分类，判断是否属于脑科学，样本存储为excel格式，选取特征值分类号前四位及摘要（先结巴分词）按频率计数。首先要搞清楚做这个分类模型的思路：读取文本—清洗文本—获取特征词列表—定义...

NLTK-006：分类文本（性别鉴定）

李玺

05-18

1579

分类是为给定的输入选择正确的类标签的任务，在基本的分类任务中，每个输入被认为是与所有其它输入隔离的，并且标签集是预先定义的。下面是分类任务的一些例子：判断一封邮件是否是垃圾邮件。从一个固定的主题领域列表中，如‘体育’、‘技术’、‘政治’，决定新闻报道的主题是什么。基本的分类任务有许多有趣的变种。例如：在多类分类中，每个实例可以分配多个标签，在开放性分类中，标签集是没有定义的。在序列分类...

朴素贝叶斯分类器（姓名预测性别）

向日葵的专属太阳

04-10

1627

使用的数据集包含两列，name(姓名)，sex(性别), 数量45000, name列数据唯一。代码实现： import random import nltk import pandas as pd from pathlib import Path from sklearn import model_selection from numpy import mean current_path = Path.cwd() # 特征提取 def gender_features(name): name

Bayes决策：身高与体重特征进行性别分类

最新发布

m0_62919535的博客

10-26

1567

同时采用身高与体重数据作为特征，在正态分布假设下估计概率密度，建立最小错误率Bayes分类器，写出得到的决策规则，将该分类器应用到训练/测试样本，考察训练/测试错误情况。在实际的应用中，分类错误率最小并不一定是最好的标准，不同类别的分类错误可能会导致不同的后果。这里要对男性和女性的数据进行分类，先要求解先验概念P(x)，这个概率是通过统计得到的，或者依据自身依据经验给出的一个概率值，所以这个值是可以进行设定的，可选择0.5对0.5，0.75对0.25，0.9对0.1这些进行测试。

机器学习之数据类型案例——基于朴素贝叶斯法，用数据辩男女

weixin_64215932的博客

05-17

1068

作者简介：整个建筑最重要的是地基，地基不稳，地动山摇。而学技术更要扎稳基础，关注我，带你稳扎每一板块邻域的基础。博客主页：啊四战斗霸的博客收录专栏：《统计学习方法》第二版——个人笔记南来的北往的，走过路过千万别错过，错过本篇，“精彩”可能与您失之交臂 la Triple attack(三连击):Comment,Like and Collect—>Attention 文章目录 ...

NLTK学习笔记——Classify模块（3）

cangqiong112758的博客

03-03

2136

本节介绍我的分类实战过程。简要记一下题目：应聘者简历上的职位信息常常繁杂且无规律，而一间公司的职位数量是一定的，于是本实战任务就是将简历上的职位进行分类。注：原文是英文的分类实例，而我要做的是中文分类，因此首先要引入结巴分词器对中文分词后方可继续处理。简历职位（25679条）与公司职位数据（32条）分别为：下面参照《NLTK学习笔记——Classify模块（2）》的

NLTK学习笔记——信息抽取（1）

cangqiong112758的博客

03-03

8218

信息抽取的内容在《Natural Language Processing》第7章，对于文本的信息抽取，命名实体及其关系的识别是至关重要要的，信息抽取分为以下几个步骤： 1. 文本切分，将string类型的文本划分为list类型的句子 2. 句子切分，将每个list类型的句子划分成由单词或chunk组成的list 3. 词性标注，生成由一个list，其组成内容是多个形如(word,labl

贝叶斯分类器c++源代码（含测试数据）

06-19

用vs2008编写的贝叶斯分类器，含有测试数据“wine.txt”,是学习贝叶斯分类器的好选择

NLTK学习笔记——Classify模块（1）

cangqiong112758的博客

03-03

1211

前言：在NLTK中讲分类和标注的是第5、6两章，这里把两个章节整合了一下。本文主要是知识点的笔记，在《NLTK学习笔记——分类和标注（2）》中进行实战的介绍。 str2tuple() 从表示一个已标注的标识符的标准字符串创建一个这样的特殊元组 print wordlist.tabulate(); 按词频降序输出所有的词，如：有监督的分类过程官方例子特征：最后一个字母；特征可能值：

朴素贝叶斯分类（上）：如何让机器判断男女？

ywangjiyl的博客

03-24

1580

朴素贝叶斯分类（上）：如何让机器判断男女？当你不能准确预知一个事物本质的时候，可以依靠和事物本质相关的事件来进行判断，如果事情发生的频次多，则证明这个属性更有可能存在 贝叶斯原理 贝叶斯解决一个叫“逆向概率”尝试解答在没有太多可靠证据的情况下，怎样做出更符合数学逻辑的推测。在现实生活中，我们很难知道事情的全貌，贝叶斯从实际场景出发，提出来一个问题：我们事先不知道袋子里面黑球和白球的比例，而是通过...

使用NLTK的朴素贝叶斯分类器来训练并完成分类工作

NLTK学习笔记——使用叶贝斯分类器性别鉴定

一 、性别鉴定步骤

二、叶贝斯分类器原理

三、实战代码

一、性别鉴定步骤