自然语言处理技术跟信息与计算科学的关系

**

自然语言处理技术跟信息与计算科学的关系

**

自然语言处理是计算机科学,人工智能,语言学关注计算机和自然语言之间的相互作用的领域。自然语言处理是一门让计算机理解、分析以及生成自然语言的科学,它融语言学、计算机科学、数学于一体。自然语言领域的研究将涉及自然语言,即人们日常使用的语言,它与语言学的研究有着密切的联系,但又有重要的区别。然而自然语言处理并不是一般地研究自然语言,而是计算机的一部分。我是信数院的一名大二学生,我所学的专业是信息与计算科学,它是数学与计算机交融的一门学科。既然自然语言处理技术与计算机、数学有关联,那么,人工智能的自然语言处理技术与本专业领域的关系又是怎样的?我们可以从自然语言处理的流程来寻找这之间的关系。
自然语言处理技术的第一步是获取语言材料,即语料。语料是语言学研究的内容,是构成语料库的基本单元。人们用文本简单的替代语言,并把文本中的上下关系作为现实世界中语言的上下文关系的替代品。我们可以通过获取语料的途径将语料分为两类:一类是已有语料,即我们将业务部门、公司等组织积累大量的文本资料在允许的条件下稍加整理就可以作为语料库;二类是网上下载、抓取语料,即我们可以运用国内外标准开放数据集,或者通过爬虫自己去抓取一些数据,然后进行后续内容。这一步主要是收集语言材料,运用的主要是计算机技术中的爬虫技术。
第二步是语料预处理。在一个完整的自然语言处理工程应用中,语料预处理会占到50%—70%的工作量,主要通过数据洗清、分词、词性标注、去停用词四个大的方面来完成。数据清理,也就是ETL处理,包含抽取Extract、转换Transform、加载load这三大法宝,就是在语料中把我们感兴趣的东西留下,清洗删除不感兴趣的内容。分词是在语料中将文本处理成最小单位粒度是词或者词语。词性标注是给每个词或者词语打词类标签,这样可以让文本在后面的处理中融入更多有用的语言信息。去停用词是去掉对文本特征没有任何贡献作用的字词。这一步运用的是计算机大数据处理技术,用编程算法实现上述需求。
第三步是特征工程,主要把分词之后字和词语表示成计算机能够计算的类型,即把中文分词的字符串转换成数字。有两种常见的表示模型分别是词袋模型和词向量。词袋模型是不考虑词语原本在句子中的顺序,直接将每一个词语或者符号统一放置在一个集合,然后按照计数的方式对出现的次数进行统计。统计词频只是最基本的方式,TF-IDF是词袋模型的一个经典用法。词向量是将字、词语转换成向量矩阵的计算模型。目前最常用的方法是One-hot。这一步主要运用统计的思想和模型,体现了数学跟计算机结合的力量很强大。
第四步是特征选择。特征选择是一个很有挑战的过程,更多的依赖于经验和专业知识,并有很多现成的算法来进行特征的选择。目前最常用的特征选择方法主要有:DF、MI、IG、CHI、WLLR、WFO。算法大部分依赖于数学,对数学的理解关系到算法的复杂度。这一步主要是用计算机实现算法进行特征的选择,若算法设计得好,则事半功倍。
第五步是模型训练。对于不同的应用需求,我们使用不同是模型。传统的有监督和无监督等机器学习模型,如KNN、SVM、GBDT等模型;深度学习模型如CNN、RNN、LSTM等。所以我们需要建立不同的模型去符合不同的应用需求,而建立模型又是运用到数学的思想。模型不能随便的建立,需要注意过拟合、欠拟合问题,不断提高模型的泛化能力。我们力求将模型更好的趋近于现实。
由上述,我们可以发现数学跟计算机结合起来真的挺厉害的。可以这样理解:数学是理论,计算机是实践。独木不成林,单一的理论或者实践都不能满足现在社会的需求。只有它们结合起来,才能形成一片树林。大数据是计算机科学下的一门学科,而大数据中最重要的部分确实属于数学的思想、编程的技术。信息与计算科学这个专业属于数学院门下的,但也学习着计算机的编程技术,掌握两门大的技术,挺厉害的。而这个专业的发展方向也不仅仅依赖于数学了,我们也可以选择计算机类发展,比如大数据。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值