文本分析基础知识

@文本处理的方法
当下的一些网络文本分析的难点:
1)数据是实时动态变化的,比如一些博客、评论、聊天信息等刷新速度特别快,并且数量庞大
2)存在这一些短文本的文本数量较少,包含的有效信息也比较小,但是特征集的维数很高,这就导致了很难从中抽取准确的特征来进行文本分类。
3)一些新兴的网络词,比如童鞋、屌丝、v587等,包含的文本噪声信息较多。

文本的打标

即标识出那些比较重要性的关键词
概念:词频-逆向文件频率(TF-IDF)
TF-IDF=TF*IDF
TF:代表的是单个词在对应文章中出现的频率
IDF:代表的是某个词语T的文章占总文章集合的百分比

目前的分词方法

1.基于字符串匹配和规则的分词方法(机械分词法)
与字典的进行匹配:存在的问题是对词典的依赖性较大,分词的效果的词义偏差较大,不能识别一些新的登陆词
其中按照是否与词性标注相结合,又可以分为单纯分词方法和与标注相结合的方法。
2.基于统计的分词方法:只需要对语料中的字信息进行统计,不需要切分词典。
主要常用的统计量和统计模型:互信息、最大熵模型、隐马尔科夫模型等。
存在的问题是:仍然存在着很大的分词歧义。
利用词和词之前的联合出现概率作为分词判断的信息。
3.基于理解的分词方法
基本思想是:在分词的同时进行语法、语义分析、利用句法信息和语义信息来解决歧义的现象。
a.基于隐马尔可夫模型的词标注中文分词法
b.基于层叠的因马尔科夫模型的汉语词法分析方法
c.神经网络方法
d.

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值