姓名数据挖掘偏好选字分析

最新推荐文章于 2024-05-01 21:20:21 发布

dltan

最新推荐文章于 2024-05-01 21:20:21 发布

阅读量780

点赞数

分类专栏：数据分析统计学

本文链接：https://blog.csdn.net/tandelin/article/details/102832583

版权

数据分析同时被 2 个专栏收录

81 篇文章

订阅专栏

统计学

6 篇文章

订阅专栏

分析方向：姓名影响力数据挖掘分析

数据字段选择

高校，地区，姓名

数据分析目的

1.名字伴随人的一生，很多人无法自我选择，而名字也是父母给予子女的一个定位，也是父母对子女一生之中最大的期望。男性多用什么字定名频数最高？女性多用什么字定名频数最高？

2.中国父母对子女的爱有多深？以姓名可窥见，如平,龙，静，好，成等字，这些无不表大父母期望子女是求事事平和，亦或是求事业有成，更或是求一生顺意，这些从每个人的姓名就能看出。

3.生物演化，层次递进，历史的底蕴，将影响现今的生活。而名字又侧面反映父母的文化水平和父母的情感，可是子女是否达到了期望？以学校定义或薪资定义

4.姓名暗示和成功心理学，人常说字如其人，可不也说声名显赫吗？如成龙，卫国，等等，那这样，比较不同的大学，褒义词，励志词。期盼词中在不同高校的占比情况，看是否名字激励也伴随着不同的人。

5.90后，00后，父母对其期盼心理变化，也伴随名字取名的变化。不同的取名的变化，意味着不同时代的父母观念的一种变化，例如70父母，80父母对生活的转变。

6.取名的风水变化，是否包含金木水火土阴阳及风雷雨雪，等等，这些也从另一个角度暗示中国的迷信色彩渐渐趋于了一个常态，开始变得较为平和。

7.名字倾向，前鼻音和后鼻音，顺口偏好选择的分析。

姓名数据挖掘

好的名字，将伴随人的一生。一个人的姓氏很难改变，但名却又有很多相同，红楼梦尚有贾史王薛，百家姓尚有整合。那关于一个人的名，是否有什么意义探究呢？为此选择一些数据进行姓名的名偏好进行分析，看大家取名的偏好如何，是否天生丽质，婷婷静好？

选择数据如下所示：
在这里插入图片描述

第一步：分割数据

library(readxl)
library(data.table)
data=read_excel(“C:\Users\Lenovo\Desktop\namefreqbyse.xlsx”)
str(data)
data=data.table(data)

第二步：提取名字符

##找出数据中，名字是1个字，2个字，3个字，4个字的数据，命名为data1,data2,data3,data4

data1=data[nchar(data $f n a m e) = = 1,]; h e a d (d a t a 1) d a t a 2 = d a t a [n c h a r (d a t a$ fname)==2,];head(data2)
data3=data[nchar(data $f n a m e) = = 3,]; h e a d (d a t a 3) d a t a 4 = d a t a [n c h a r (d a t a$ fname)==4,];head(data4)

第三步：分别拆分名字这列的数据字符

n1=lengths(data1[,1])#判断数据1的所有个数,得到27条数据
print(n1)
n2=lengths(data2[,1])#判断数据2的所有个数,得到76条数据
print(n2)
n3=lengths(data3[,1])#判断数据3的所有个数，个数为0
print(n3)
n4=lengths(data4[,1])#判断数据4的所有个数，个数为0
print(n4)

第四步：根据数据个数进行字段拆分

###ma1=data1[,c(“长度”) := tstrsplit(data $KaTeX parse error: Expected 'EOF', got '#' at position 47: \dots)][rep(1:27)] #̲#ma3=data3[,"长度\dots$ fname[rep(1:65)],"", fixed=TRUE)][rep(1:65)]
##ma4=data4[,“长度”) := tstrsplit(data$fname[rep(1:15)],"", fixed=TRUE)][rep(1:15)]

ma2=data2[,c(“type1”,“type2”) := tstrsplit(data$fname[rep(1:76)],"", fixed=TRUE)][rep(1:76)]
ma2_1<-ma2[,c(“type1”,“maleN”,“femaleN”)]
ma2_1[,“type”]<-ma2_1[,“type1”];head(ma2_1)
m1data<-ma2_1[,c(“type”,“maleN”,“femaleN”)]
ma2_2<-ma2[,c(“type2”,“maleN”,“femaleN”)];head(ma2_2)
ma2_2[,“type”]<-ma2_2[,“type2”];head(ma2_2)
m2data<-ma2_2[,c(“type”,“maleN”,“femaleN”)]

第五步：合并数据

#单独提取字符数据拼接

dx=rbind(m1data,m2data)# 合并2个名字的最终数据
dx[,“fname”]<-dx[,“type”]
end_dx<-dx[,c(“fname”,“maleN”,“femaleN”)]
cdata<-rbind(end_dx,data1)
result<-cdata

第六步：求和数据

result $f n a m e < - f a c t o r (r e s u l t$ fname);
z1=tapply(result $f e m a l e N, r e s u l t$ fname,sum) #女性名字求和
z1=tapply(result $f e m a l e N, r e s u l t$ fname,sum) #男性名字求和