分析方向:姓名影响力数据挖掘分析
数据字段选择
高校,地区,姓名
数据分析目的
1.名字伴随人的一生,很多人无法自我选择,而名字也是父母给予子女的一个定位,也是父母对子女一生之中最大的期望。男性多用什么字定名频数最高?女性多用什么字定名频数最高?
2.中国父母对子女的爱有多深?以姓名可窥见,如平,龙,静,好,成等字,这些无不表大父母期望子女是求事事平和,亦或是求事业有成,更或是求一生顺意,这些从每个人的姓名就能看出。
3.生物演化,层次递进,历史的底蕴,将影响现今的生活。而名字又侧面反映父母的文化水平和父母的情感,可是子女是否达到了期望?以学校定义或薪资定义
4.姓名暗示和成功心理学,人常说字如其人,可不也说声名显赫吗?如成龙,卫国,等等,那这样,比较不同的大学,褒义词,励志词。期盼词中在不同高校的占比情况,看是否名字激励也伴随着不同的人。
5.90后,00后,父母对其期盼心理变化,也伴随名字取名的变化。不同的取名的变化,意味着不同时代的父母观念的一种变化,例如70父母,80父母对生活的转变。
6.取名的风水变化,是否包含金木水火土阴阳及风雷雨雪,等等,这些也从另一个角度暗示中国的迷信色彩渐渐趋于了一个常态,开始变得较为平和。
7.名字倾向,前鼻音和后鼻音,顺口偏好选择的分析。
姓名数据挖掘
好的名字,将伴随人的一生。一个人的姓氏很难改变,但名却又有很多相同,红楼梦尚有贾史王薛,百家姓尚有整合。那关于一个人的名,是否有什么意义探究呢?为此选择一些数据进行姓名的名偏好进行分析,看大家取名的偏好如何,是否天生丽质,婷婷静好?
选择数据如下所示:
第一步:分割数据
library(readxl)
library(data.table)
data=read_excel(“C:\Users\Lenovo\Desktop\namefreqbyse.xlsx”)
str(data)
data=data.table(data)
第二步:提取名字符
##找出数据中,名字是1个字,2个字,3个字,4个字的数据,命名为data1,data2,data3,data4
data1=data[nchar(data
f
n
a
m
e
)
=
=
1
,
]
;
h
e
a
d
(
d
a
t
a
1
)
d
a
t
a
2
=
d
a
t
a
[
n
c
h
a
r
(
d
a
t
a
fname)==1,];head(data1) data2=data[nchar(data
fname)==1,];head(data1)data2=data[nchar(datafname)==2,];head(data2)
data3=data[nchar(data
f
n
a
m
e
)
=
=
3
,
]
;
h
e
a
d
(
d
a
t
a
3
)
d
a
t
a
4
=
d
a
t
a
[
n
c
h
a
r
(
d
a
t
a
fname)==3,];head(data3) data4=data[nchar(data
fname)==3,];head(data3)data4=data[nchar(datafname)==4,];head(data4)
第三步:分别拆分名字这列的数据字符
n1=lengths(data1[,1])#判断数据1的所有个数,得到27条数据
print(n1)
n2=lengths(data2[,1])#判断数据2的所有个数,得到76条数据
print(n2)
n3=lengths(data3[,1])#判断数据3的所有个数,个数为0
print(n3)
n4=lengths(data4[,1])#判断数据4的所有个数,个数为0
print(n4)
第四步:根据数据个数进行字段拆分
###ma1=data1[,c(“长度”) := tstrsplit(dataKaTeX parse error: Expected 'EOF', got '#' at position 47: …)][rep(1:27)] #̲#ma3=data3[,"长度…fname[rep(1:65)],"", fixed=TRUE)][rep(1:65)]
##ma4=data4[,“长度”) := tstrsplit(data$fname[rep(1:15)],"", fixed=TRUE)][rep(1:15)]
ma2=data2[,c(“type1”,“type2”) := tstrsplit(data$fname[rep(1:76)],"", fixed=TRUE)][rep(1:76)]
ma2_1<-ma2[,c(“type1”,“maleN”,“femaleN”)]
ma2_1[,“type”]<-ma2_1[,“type1”];head(ma2_1)
m1data<-ma2_1[,c(“type”,“maleN”,“femaleN”)]
ma2_2<-ma2[,c(“type2”,“maleN”,“femaleN”)];head(ma2_2)
ma2_2[,“type”]<-ma2_2[,“type2”];head(ma2_2)
m2data<-ma2_2[,c(“type”,“maleN”,“femaleN”)]
第五步:合并数据
#单独提取字符数据拼接
dx=rbind(m1data,m2data)# 合并2个名字的最终数据
dx[,“fname”]<-dx[,“type”]
end_dx<-dx[,c(“fname”,“maleN”,“femaleN”)]
cdata<-rbind(end_dx,data1)
result<-cdata
第六步:求和数据
result
f
n
a
m
e
<
−
f
a
c
t
o
r
(
r
e
s
u
l
t
fname<-factor(result
fname<−factor(resultfname);
z1=tapply(result
f
e
m
a
l
e
N
,
r
e
s
u
l
t
femaleN,result
femaleN,resultfname,sum) #女性名字求和
z1=tapply(result
f
e
m
a
l
e
N
,
r
e
s
u
l
t
femaleN,result
femaleN,resultfname,sum) #男性名字求和
由字词展示分析得,父母希望男孩望子成龙,一生平安,俊俏明理,心想事成。
由字词展示分析得,父母希望女孩聪慧芳香,丽质静好,倩影美丽。
察微小之事,研数据之秘。
做分析挖掘:微信:tan1525859926