DC自然语言处理———文本分类基础

本文介绍了自然语言处理的基础知识,包括文档、词语和预料的概念。重点讲解了数据清洗的正则表达式操作,如使用`re.sub`进行替换和`re.findall`查找匹配。此外,讨论了中文分词的重要性,推荐了jieba工具,它提供精确、全和搜索引擎三种分词模式。最后,提到了文本特征表示,如词集模型和词袋模型,将文本转化为计算机可理解的数字形式。
摘要由CSDN通过智能技术生成

NLP相关基础概念

文档(document):是指一段单独的文本信息。可能是一则短信、一条推特、一份邮件、一本书、或者一首歌词。一般一个文档对应于一个观测值或一行数据。

词语(token):例如“今天天气真好”这个文档,是由今天,天气,真好三个单词组成的。token相当于机器学习中的特征(列)。

预料(corpus):文档的集合(预料大于等于一条文档)。这相当于我们要研究对象的所有文本数据。


(1)数据清洗:去除一切不相关的字符,比如清楚无关信息

    正则表达式(re)

        Sub:检查和替换

        语法:

        re.sub(pattern,repl,string)

        参数:

            pattern:正则中的模式字符串

            repl:替换的字符串,也可为一个函数

            string:要被查找替换的原始字符串


       

        Findall:匹配的所有子串,并放回一个列表

        语法:
</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值