本帖训练一个可以根据姓名判断性别的CNN模型;我使用自己爬取的35万中文姓名进行训练。
使用同样的数据集还可以训练起名字模型,参看:
准备姓名数据集
我上网找了一下,并没有找到现成的中文姓名数据集,额,看来只能自己动手了。
我写了一个简单的Python脚本,爬取了上万中文姓名,格式整理如下:
姓名,性别
安镶怡,女
饶黎明,男
段焙曦,男
苗芯萌,男
覃慧藐,女
芦玥微,女
苏佳琬,女
王旎溪,女
彭琛朗,男
李昊,男
利欣怡,女
# 貌似有很多名字男女通用
数据集:https://pan.baidu.com/s/1hsHTEU4。
训练模型
import tensorflow as tf
import numpy as np
name_dataset = 'name.csv'
train_x = []
train_y = []
with open(name_dataset, 'r') as f:
first_line = True
for line in f:
if first_line is True:
first_line = False