python性别选择男女代码,python性别输入if男或女

文章讲述了作者如何利用Python和机器学习技术,尤其是LSTM神经网络,从120万中文姓名数据集中训练模型预测性别。通过将姓名转换为拼音并编码为数值向量,作者实现了性别预测功能,并将其集成到一个网页应用程序中。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

大家好,小编为大家解答python性别年龄分布图怎么做的的问题。很多人还不知道python性别统计学生人数代码,现在让我们一起来看看吧!

Source code download: 本文相关源码

前言

做这个项目的起因是之前csdn给我推荐了一个问答:基于机器学习的姓名预测性别的手机app开发。我点进去发现已经有人回答了,链接点进去一看,好家伙,这不是查表算概率吗,和机器学习有半毛钱关系Python Turtle画递归树。而且我觉得用姓名预测性别挺扯淡的,去查了一下,发现某知名爱国企业和国外的都有提供姓名预测性别的api,看来是可以尝试做的。

吐槽完了,先上最后做出来的结果:
在这里插入图片描述
准确性还是可以的,并且支持人名批量查询,整个网页响应速度也很快。

环境

我用的是python3.10,需要安装以下包:
numpy
pandas
pypinyin
tensorflow-cpu
plotly(网页)
dash(网页)

方法

1.如何拿到人名和性别的数据集。这个我一开始去搜那篇查表文章背后所用的数据库从哪来的,在github上找到了它的人名出现频率图,但是没有找到原始数据库,据说是从什么泄露的kaifangjilu里拿出来的,我一想这tm不是违法吗,难道没有合法手段拿到这样的数据集资源了吗?我还是在github上找到了120万人名和性别的数据集:
点进去找到Chinese_Names_Corpus_Gender(120W).txt这个文件
2.如何对中文姓名进行特征提取,转化为机器能理解的语言。 这个想来想去还是决定把中文先转换为无注音的拼音,然后对每一个字母进行字母表数字的转换,事实证明确实效果不错。

具体如下图所示:
在这里插入图片描述

代码

代码分为三块,数据准备代码,数据训练代码,网页app代码。

数据准备代码

首先把下载下来的txt转换为csv文件:
在这里插入图片描述
把前面的东西去掉,然后文件后缀一改,就摇身一变成为了以逗号为分割的经典csv文件。
在这里插入图片描述
接下来开始读取处理数据:

import pandas as pd
df = pd.read_csv("test.csv")
df

这里我是在notebook里运行的,结果如下:

在这里插入图片描述

我们首先需要把性别转换为0,1表示男,女:

df['sex'].replace(['男', '女','未知'],
                        [0, 1, 2], inplace=True)

然后批量转换姓名并保存到新的csv文件中:

from pypinyin import lazy_pinyin
import time
count = 0
a1 = time.time()
for x in df['dict']:
    list_p
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值