深度学习与自然语言处理:中文信息熵的计算

该博客介绍了如何计算中文信息熵,引用了Shannon的相关理论,并探讨了条件信息熵。实验使用jieba分词系统进行中文分词,进行了语料预处理,统计了一元模型词频,最终得出中文信息熵为10.613比特/词。
摘要由CSDN通过智能技术生成

实验题目

首先阅读

An Estimate of an Upper Bound for the
Entropy of English

来计算所提供数据库中文的平均信息熵

实验内容

信息熵

1948年,为了解决信息量化的问题,香农从热力学中借用了热熵的概念提出了“信息熵”的概念,把信息中排除了冗余后的平均信息量称为“信息熵”,并给出了计算信息熵的数学表达式。
H ( X ) ≡ H ( P ) ≡ − E P log ⁡ P ( X 0 ∣ X − 1 , X − 2 , … ) H(X) \equiv H(P) \equiv-E_{P} \log P\left(X_{0} \mid X_{-1}, X_{-2}, \ldots\right) H(X)H(P)EPlogP(X0X1,X2,)
其中 X X X为平稳马尔可夫过程, P P P代表 X X X的概率分布,

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值