自然语言处理 之 语料库相关(三)

本文详细介绍了nltk库中语料库的导入、处理函数以及相关语料库的特性,包括古登堡、布朗、路透社和就职演讲等。通过示例展示了如何查找文件、获取字词句长度,并利用条件词频分布分析单词使用情况。
摘要由CSDN通过智能技术生成

一:针对nltk语料库的相关处理函数

           1 、导入语料库的方法

        1)一步到位导入语料库 如:导入gutenberg的语料库

         nltk.corpus.gutenberg.fileids()

        2)为避免1)中的过场语句,可以分开导入,如下:

        from nltk.corpus import gutenberg

        读取文件:gutenberg.fileids()

        读取语料库中的单词:gutenberg.words()

       注意,这里读取语料库的词或者是文件名也好,最终返回的结果是列表的形式,如果想要使用之前我的博客 自然语言处理(1)中针对文本的相关函数呢,这里是不可以直接使用的,需要用函数nltk.Text()将读取的单词转换成文本。如下:

        import nltk
        from nltk.corpus import gutenberg
        gutenberg.fil

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值