汉语中的词频及笔画数分布规律探析

这篇博客探讨了齐普夫定律在汉语词频分布中的适用性,发现汉语词频大致符合齐普夫定律,低频词语一致性更高。同时,分析了汉字笔画数的分布,发现与伽马分布相似,揭示了语言中的一些普遍规律。
摘要由CSDN通过智能技术生成

一、引言

大约八十年前,哈佛大学的语言学家乔治·金斯利·齐普夫(George Kingsley Zipf)对英语中的词频分布进行了研究,发现了一条经验规律,他发现:如果把一篇较长文章中每个词出现的频次统计起来,按照高频词在前、低频词在后的递减顺序排列,并用自然数个这些词编上的等级序号,即频次最高的词等级为1,频次次之的等级为2等等,若用 F F F表示频次, R R R表示序号,则有 F R = C FR=C FR=C( C C C为常数),也就是说词语的频次和其频次排名呈反比例关系。假如以单词的频次排名为横轴,以单词的频次为纵轴绘制散点图,会发现图形大致呈现双曲线形。为了数学上处理的方便,我们可以对词频及词频排名取对数(自然对数或以十为底的对数均可),考虑到: F = C R F=\frac{C}{R} F=RC,则有:
l o g ( F ) = l o g ( C ) − l o g ( R ) log(F)=log(C)-log(R) log(F)=log(C)log(R)
所以 l o g ( F ) log(F) log(F) l o g ( R ) log(R) log(R)应呈线性关系,在图形上应该是一条直线,如下:

受到齐普夫的启发,其它学者也纷纷验证该定律对其它语言的适用性,他们发现齐普夫定律在很多语言中也是成立的。如上图,频次排名对数与频次的对数成线性关系。一个很自然的问题是,该定律在汉语中的适用性如何?

汉字作为象形文字,显著不同于以英语为代表的拼音文字,其语言的基本单位为单字,然后再由单字组成两字词、三字词等以表达更加复杂的意义。拼音文字的基本单位为单词,意义的扩展通过创造新词汇或者拼接已有单词组成新词汇来实现。因此,英语可以以单词为单位来统计词频,而汉语则必须以词语为基本单位来统计,这既包括单字,也包括多字词,只有这样才能准确描述汉语词频的分布规律

利用教育部语言文字应用研究所计算语言学研究室提供的在线语料库字词频数据,我们可以检验齐普夫定律在汉语中的适用性,加深我们对汉语词频分布规律的认识。由于以上数据并不包括汉字的笔画数数据,我们可以利用笪骏提供的现代汉语单字频率列表,进一步研究汉字笔画数的分布规律。

我们使用jupyter notebook对以上数据进行分析,相关notebook及数据文件已经上传到这个仓库,大家可以下载数据进行分析验证。数据文件版权归原作者所有,如有侵权请通知我删除。

二、汉语词频分布规律

首先,我们导入一些数据分析必要的库,并做一些初始化设置:

import numpy as np
import statsmodels.api as sm
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings("ignore")
import seaborn as sns
sns.set(style="white",color_codes=True)
import pandas as pd
%matplotlib inline
plt.rcParams['figure.figsize'] = (15,9.27)

然后导入word_freq.xlsx这个数据文件,这个数据文件收录了现代汉语语料库中出现次数大于50次的词的出现次数、频率与累计频率数据。该语料库的规模为2000万字,该表共收集了14629个词,既包括单字,也包括多字词。让我们先看下数据的基本情况:

df 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值