文本分析基础知识

最新推荐文章于 2024-01-21 03:45:05 发布

想做个有技术的背锅侠

最新推荐文章于 2024-01-21 03:45:05 发布

阅读量1.5k

点赞数 2

文章标签：文本分析

本文链接：https://blog.csdn.net/qq_41818174/article/details/88807110

版权

本文介绍了网络文本分析的挑战，如数据实时性、短文本特征抽取困难及词汇噪声。深入探讨了分词方法，包括字符串匹配、统计和理解方法，并提到了深度学习的应用。同时，讨论了文本分类效果的评价指标，如准确率、精准率、召回率和F1值。还列举了相关工具，如word2vec、标签云和结巴分词。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

@文本处理的方法
当下的一些网络文本分析的难点：
1）数据是实时动态变化的，比如一些博客、评论、聊天信息等刷新速度特别快，并且数量庞大
2）存在这一些短文本的文本数量较少，包含的有效信息也比较小，但是特征集的维数很高，这就导致了很难从中抽取准确的特征来进行文本分类。
3）一些新兴的网络词，比如童鞋、屌丝、v587等，包含的文本噪声信息较多。

文本的打标

即标识出那些比较重要性的关键词
概念：词频-逆向文件频率（TF-IDF）
TF-IDF=TF*IDF
TF:代表的是单个词在对应文章中出现的频率
IDF:代表的是某个词语T的文章占总文章集合的百分比

目前的分词方法

1.基于字符串匹配和规则的分词方法（机械分词法）
与字典的进行匹配：存在的问题是对词典的依赖性较大，分词的效果的词义偏差较大，不能识别一些新的登陆词
其中按照是否与词性标注相结合，又可以分为单纯分词方法和与标注相结合的方法。
2.基于统计的分词方法：只需要对语料中的字信息进行统计，不需要切分词典。
主要常用的统计量和统计模型：互信息、最大熵模型、隐马尔科夫模型等。
存在的问题是：仍然存在着很大的分词歧义。
利用词和词之前的联合出现概率作为分词判断的信息。
3.基于理解的分词方法
基本思想是：在分词的同时进行语法、语义分析、利用句法信息和语义信息来解决歧义的现象。
a.基于隐马尔可夫模型的词标注中文分词法
b.基于层叠的因马尔科夫模型的汉语词法分析方法
c.神经网络方法
d.