数学之美学习笔记（1）

最新推荐文章于 2021-10-14 21:33:05 发布

liche717

最新推荐文章于 2021-10-14 21:33:05 发布

阅读量411

点赞数

分类专栏：数据分析基础知识机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010963351/article/details/50515209

版权

数据分析基础知识同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

第1章文字和语言vs数字和信息

文字按照意思来聚类，最终回带来一些歧义。上下文建立的概率模型也会出现错误。

罗塞塔石碑对自然语言处理的两点指导意义：

1. 信息的冗余是信息安全的保障。

2. 语言的数据，我们称之为语料，尤其是双语或者是多语的对照语料对翻译至关重要，是我们从事机器翻译研究的基础。

最早的计数工具—斯威士兰的乐邦博古

十进制—编码—

象形文字—拼音文字

常用字短，生僻字长------信息论中的最短编码理论---语法、语言（自然语言处理认为语言是编码）

信息传递：信道较宽，不必压缩—讲话快

信道较窄，进行压缩—书信慢--------

信息校验（古犹太人）

第2章自然语言处理—从规则到统计

字母（笔画）、文字和数字实际上都是信息编码的不同单位。语言是编码方式，语言规则是编译码的算法。

机器智能—计算机科学支付阿兰.图灵提出

自然语言处发展的两个阶段（60多年）：

1．20世纪50年代到20世纪70年代，走弯路的阶段。用电脑模拟人脑，

2．之后，基于数学模型和统计的方法

不是靠计算机理解了自然语言，而是通过数学，更准确的说是靠统计

上世纪70年代的基于统计的方法核心模型是通信系统加隐含马尔可夫模型

1988，基于统计的机器翻译方法

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。