我们家姓穆,是比较小众的一个姓氏。据统计,2017年,全国‘穆’姓总共约55w人,占全国人口总数的0.034%左右。
如果三十年为一代,能有长幼交叉生活通常为三代,父亲了解爷爷的中晚年,孙辈只了解爷爷的晚年。而我出生时候,我爷就不在了,我只能听我爹给我讲过,我爷是以前耐火厂的财务科小领导,写了一手好字,然后剩下的,剩下的就没有什么再多的对亲爷的印象了,我很想多了解些。
幸运的事,我并没有因此缺失,隔辈亲的爷爷照顾。因为从小是姥爷一路带着我玩和成长,一路让我理解和认识爷孙感情的。姥爷一直到现在,身体都还算硬朗,去年还带姥爷去了上海外滩,坐了飞机、高铁,都是头一次,心情还不错。
家谱,是姓氏文化的重要组成部分。古有云:夫家有谱,州县有志,国有史,其义一也。亦有云:国有史而知兴替,家有谱而世系明
家谱,是汇集人文地理、家族聚散地理,是研究社会发展中,人口学、社会学、经济学、历史学、民族学、教育学、人物传记及地方史的重要资料。
和周围的同事朋友了解到,其实很多人家里是没有家谱的,比例粗估没有家谱的可能占了70%以上,对自己家族历史的了解,要么也是通过自己老爹转述的,或者就是那种爷爷高寿,能亲口讲给自己的。东北的同事,有说山东闯关东过去的,也有说是爷爷那代就是大兴安岭那边的,但是再往前推,比如解放前,清朝后金之前,什么时候到东北落脚的也就不知道了。
我是幸运的,老爹之前就告诉过我,我们家是有家谱的,在他小时候生活在河南老家的时候就见过,后来在老爹他10多岁随我爷从河南迁家到陕西后也就没见过了,前不久他回河南老家办事,经过申请,复印了一份家谱副本带回了陕西,家谱内容并不丰富,只有族姓源流,世代信息的人名表普,及少量标注。
但我也是很激动,因为这是我第一次见到“穆”家的家谱,那种“我们穆家”的族姓认同感好像自然的涌上心头。此时,我已经了29周岁了,大家毕业6年,从北漂一族,变成杭漂一族,最终在杭州安家落户,后来想想,如果我能早些年看到就更好了。
由于我在杭州,父母都还在陕西,就让老爹把家谱都依次拍照发我(共30页),让我萌生一个想法,作为一个软件工程毕业的移动互联网从业者,在当下这种互联网不对推动加速社会迭代的今天,人口迁徙速度远远快于以前,我能不能把家谱从集中式的单点模式,变成信息化丰富,单元多副本化(类LDC概念),将信息维度更丰富的与时俱进的新模式。
尊重老家祠堂修谱的及传统的同时(老爹已经按家里人头数,给老家寄过去了修族谱的200块钱),但站在当今的快速变化、信息爆炸、认知不断升级的今天,我想是不是可以为未来后面的10代20代提供更为丰富的前置“元数据”,我想逐步建议一套“穆家”我们这一分支的信息化数据库,项目1期使用mysql数据库,计划可视化使用H5开发,自动适配PC+手机终端,可视化框架 React + Antd mobile + G2图标库。
1. 前提
- 得有一份家谱,通常都是纸质的。纸质的家谱的弊端,是不便携带,不易保存,难于信息同步。我理解的家谱,不应该是尘封于祠堂的压箱底,而应该是让同族的后辈们,尤其是孩子们的小时候,就了解家族的历史
- 在现在信息化的社会里,如果家族里还有家谱,应该庆幸,并感恩先辈们对修族谱的奔波
- 换位思考,我们这一代年轻人,同样有责任把家族的历史(即使不是NB人家)继续延续下去,不能让树状图的信息传递,断在我们这个节点上,不当历史的遗憾
- 我希望将其信息化,方便家族信息的延续,让每一代孩子知道自己的祖上的历史,避免孩子问爸爸我们老家是哪里的,只能向上说出一两代的信息
2. 拍照
- 常见的家谱一般是物理介质的,比如用纸作为载体记录的
- 这种情况成本最低的信息转化
- 我本来认为是,纸质>拍照>OCR识别>得到文本类原始信息,得到初步数据,在对数据进行json结构化,应该就可以得到电子版的家谱信息原始数据了,例如这样
3. 模型&存储设计
大json字符串 or db-row
考虑到维护和简单性,经过思考后的最底层数据属性应该是打散平级的,即如下的模式
{
"g_rank": 1,
"g_id": 1,
"g_father_id": 0,
"g_mother_id": 0,
"name": "穆茂",
"sex": "男",
"birth_date": "",
"shenfenzheng_id": "",
"face_img": "",
"photos": [ ],
"household_info": { },
"spouse": { },
"home_page": "",
"dealth": true,
"rank_index": 1,
"formal_name": "",
"summary": "",
"location": "",
"childrens": [ ]
}
复制代码
以这样的存储格式去存,其实对于sql或直接基于kv的键值对存储问题也就不大了
信息化数据
这块刚开始想的很好,太理想了:
搞什么OCR技术
OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也因此而产生。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。
搞什么可扩展性的技术方案
纸质家谱>图像拍照>图形>图像>边缘识别>文字抽取>字符内容整理>数据建模>数据落库>大json原始数据文本文件。。。
现实发现,还是老老实实的
如果就为了把穆家建立一份信息化副本的话,以MVP的方式,还是直接干来得快
附一张白发大爷的图!
简单总结为
拍照
把图片按世代重命名图片文件名
人肉逐个分析每一页内容
漫长的码字
mysql ,mysql workbench
图形化
过程记录
- 明末清初,家族人丁兴旺。
- 5世时候,有很多县学生(邑庠生(邑旧指县,邑庠生,即县学生))
- 家族早期,出现过@穆成章 官八品 及部分地方官员及县邑教师
- 但清代中期开始,11世和12世前后,家族很多分支出现单传或绝后现象。
- 穆汝英为穆家第一个同族兄弟间出继的儿子,生父为穆森,养父为穆铎(duo)
- 穆生鳌为穆家第一个非同族兄弟间出继的儿子,其生父为穆顕(xian)煜(yu)
- 穆思智为穆家第一个非同族入继的儿子,其养父为 穆玉成
- 第14世,取名遵循“思”字辈,执行的比较好
- 14世的 @穆思任 和 @穆思杰 @穆树屏 均官七品,官奎文阁典籍(和县令属于一个官阶)
- 13世的 @穆汝成,共7个儿子,为在此之前top1
- 13世的 @穆汝翼,共5个儿子,为在此之前top2
- 14世的 自己的两个儿子 @穆文熙 @穆晨熙 都过继给了他的二弟和三弟(其二弟三弟都无儿子)
- 15世的 @穆廷麟 ,是“一承两嗣”,双父分别为14世的 两位兄弟,@穆树芳 和 @穆树屏,怀疑是 @穆树屏 是官7品,但并无儿子,所以 兄弟穆树芳 将儿子进行了“一承两嗣”,由于穆树芳也是只有1个儿子,所以并未执行出继和入继的操作,而且16世的孙子辈@穆序垣(yuan) 继续 “一承两嗣”
- 感叹:信息的高速丢失,哪怕只有几个字的批注,也可以自己同族的后人了解祖上相关祖先前辈的家族信息,更加坚定了我要把家谱电子信息化,并不断完善家族信息沉淀的意义。
- 16世的 @穆文升 ,被过继给他的大伯@穆俾熙,穆文升是老大,他原本还有两个兄弟,穆干城和穆宗城。通过名字可以推测,他并未和他其他兄弟使用同一个辈分名字要求
- 18世,清字辈儿,即我爷爷的那一代,有一支,兄弟3个(中华人民共和国解放前后时期),名字叫 穆清亚/穆清非/穆清拉,非常有时代气息。
- 亚非拉:亚洲、非洲和拉丁美洲国家的统称,也称为“第三世界”,这一概念最早由毛泽东同志于上世纪五六十年代提出,他指出:美苏为第一世界,亚非拉广大被压迫的国家和民族为第三世界,中间的为第二世界。
- 通过这3个人的名字,我也才纠正了,在家谱里树状图里,依然应该是左为上,即从左到右,依次是老大,老二,老三,依次类推
- 便从mysql的第一行,开始人肉把rank_index(内部排序的索引逆序了一遍),如果行数再多,则只能写sql了,我还是选择了比较挫的方式,500多条数据,挨个人肉给各家的兄弟排行索引逆了个序。
Action:
- 大家回家尽早问问老爹或者爷爷(如果健在的话),老家(原籍)是否有家谱或者类似文字性的记载,把自己本家的家族历史进行了解
- 不管是男孩还是女孩,都有权利并应该知道自己的家族历代历史
- 我已经约了父母和媳妇,最近几年找时间要去趟宁津县(今山东省内)
- 看看穆家这个全国总共只有50w人的姓氏的,在我们所处的这一支儿上的一代目(任明·宁津主簿,从七品的地方小官)的故里,是个什么样的地方