Text Mining and Analytics WEEK1

第一周目标

  • 解释自然语言处理中的一些基本概念

  • 解释不同的方式来表示文本数据

  • 解释的两种基本的词联想以及如何从文本数据挖掘聚合关系

尝试回答以下问题

  • 为了理解一个自然语言句子,计算机必须做些什么?

  • 什么是歧义?

  • 为什么自然语言处理(NLP)对计算机来说很困难?

  • 什么是词袋表示?

  • 为什么这个基于词法的表示比从文本的句法和语义分析派生的表达更健壮?

  • 什么是聚合(paradigmatic)关系?

  • 什么是组合(syntagmatic)关系?

  • 从文本中发现聚合关系的一般思想是什么?

  • 从文本中发现合成关系的一般思路是什么?

  • 在计算上下文相似性时,为什么要进行词频(TF)转换呢?

  • 如何BM25词频转换工作?

  • 当计算上下文相似性时,为什么要做逆文档频率(IDF)权重?

转载于:https://www.cnblogs.com/yuuken/p/9463250.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值