中文姓名提取(玩具代码——准头太小，权当玩闹)

梦幻精灵_cq

已于 2022-07-03 00:40:30 修改

阅读量683

点赞数 4

分类专栏：练习文章标签： Python 姓名提取正则表达式文本处理中文姓名

于 2022-06-29 23:57:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_57158496/article/details/125531807

版权

练习专栏收录该内容

156 篇文章 3 订阅

订阅专栏

Python 官网：https://www.python.org/

Free：大咖免费“圣经”教程《 python 完全自学教程》，不仅仅是基础那么简单……

自学并不是什么神秘的东西，一个人一辈子自学的时间总是比在学校学习的时间长，没有老师的时候总是比有老师的时候多。
—— 华罗庚

等风来，不如追风去……

中文姓名提取 (玩具代码——准头太小，权当玩闹)

目录

1、笔记缘起
2、目录结构
3、代码运行效果
4、本练习完整源码

回首页

在这里插入图片描述
基于这条评论，我“舍身”试炼了。
我正好有收录百家姓，就以百家姓和“中文取名常用字”来做了一个玩具——“中文姓名提取”。

回首页

“玩具”目录结构
在这里插入图片描述

回首页

代码试炼(以“三国演义.txt”、“大奉打更人_19txt”两个文本“开涮”)

在这里插入图片描述

回首页

本练习完整源码

#!/sur/bin/nve python 
# coding: utf-8 

from re import findall # 从re模块加载findall方法。

'''

filename = 're_Chinese_name.py'

author = '梦幻精灵_cq'

time = '2022-06-29'

'''
from os import system 


class re_Chinese_name:
    ''' 从文本中提取中文姓名 '''

    
    def __init__(self):
        l = system('clear')  
        with open('data/firstnames_one_100.txt') as f:
            self.firstnames = f.read().strip().split('，')
        with open('data/firstnames_two_85.txt') as f:
            self.firstnames_two = f.read().strip().split('，')
            self.firstnames.extend(self.firstnames_two)
        with open('data/boy_names.txt') as f:
            self.names_chr = f.read()
        with open('data/girl_names.txt') as f:
            self.names_chr += f.read()
        self.names = "".join(self.names_chr.strip().split('，'))
        #input(f"\n\n姓：{self.firstnames}\n名用字：{self.names_chr}")


    def get_names(self, text):
        ''' 提取姓名，text为待从中提取姓名的文本。'''
        names = []

        for firstname in self.firstnames:
            if firstname in text:
                re_s = f"{firstname}"r'\w{3}'
                #print(re_s) # 调试胜语句。
                names.extend(findall(re_s, text))
        print(' 正在整理提取的姓名…… '.center(39, '~'))
        names = self.isname(list(set(names)))
        return set(names)


    def isname(self, names_list):
        ''' 中文姓名判定 '''
        names = []
        n = self.names_chr
        for name in names_list:
            if name[:2] in self.firstnames_two:
                if name[2] in n and name[3] in n:
                    names.append(name)
                elif name[2] in n and name[3] not in n:
                    names.append(name[:-1])
            else:
                if name[1] in n and name[2] in n and name[3] in n:
                    names.append(name)
                elif name[1] in n and name[2] in n:
                    names.append(name[:3])
                elif name[1] in n:
                    names.append(name[:2])
        return names



if __name__ == '__main__':
    rn = re_Chinese_name()
    names = rn.get_names(open('data/三国演义.txt').read())
    names2 = rn.get_names(open('data/大奉打更人_19.txt').read())
    print(f"\n\n{u' re提取中文姓名 '.center(44, '~')}\n\n《三国演义》：\n{'，'.join(names)}\n\n《大奉打更人》第一十九章：\n{'，'.join(names2)}\n\n")

在这里插入图片描述

回首页

__上一篇：__ CSV文件格式——方便好用个头最小的数据传递方式

__下一篇：__

我的HOT博：

练习：银行复利计算(用 for 循环解一道初中小题)(1052阅读)
pandas 数据类型之 DataFrame(1321阅读)
班里有人和我同生日难吗？(概率probability、蒙特卡洛随机模拟法)(2080阅读)
Python字符串居中显示(1469阅读)
练习：求偶数和、阈值分割和求差( list 对象的两个基础小题)(1638阅读)
用 pandas 解一道小题(1964阅读)
可迭代对象和四个函数(1065阅读)
“快乐数”判断(1226阅读)
罗马数字转换器(构造元素取模)(1933阅读)
Hot：罗马数字(转换器|罗生成器)(3571阅读)
Hot：让QQ群昵称色变的代码(26511阅读)
Hot：斐波那契数列(递归| for )(4038阅读)
柱状图中最大矩形(1646阅读)
排序数组元素的重复起止(1236阅读)
电话拨号键盘字母组合(1343阅读)
密码强度检测器(1791阅读)
求列表平衡点(1812阅读)
Hot：字符串统计(4281阅读)
Hot：尼姆游戏(聪明版首发)(3415阅读)尼姆游戏(优化版)(979阅读)

推荐条件点阅破千

回目录

老齐漫画头像

精品文章：

来源：老齐教室

回目录

Python 入门指南【Python 3.6.3】

好文力荐：

全栈领域优质创作者——寒佬(还是国内某高校学生)好文：《非技术文—关于英语和如何正确的提问》，“英语”和“会提问”是学习的两大利器。
【8大编程语言的适用领域】先别着急选语言学编程，先看它们能干嘛
靠谱程序员的好习惯

CSDN实用技巧博文：

梦幻精灵_cq

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
4
评论
中文姓名提取(玩具代码——准头太小，权当玩闹)

中文姓名提取(玩具代码——准头太小，权当玩闹)
复制链接

扫一扫

专栏目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

梦幻精灵_cq 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。