自然语言处理语言资源项目

该项目通过爬虫收集并处理公开的web信息,生成词汇知识库、领域语料和预训练词向量,适用于自然语言处理任务。资源在GitHub及百度网盘分享。
摘要由CSDN通过智能技术生成

项目地址:https://github.com/liuhuanyong/LanguageResources
致力于利用web公开信息,采用爬虫脚本,加工处理形成语言资源包括词汇知识库,领域语料等语言资源,该资源可用于自然语言处理任务.
1、 corpus_resources.py:词库,包括:

        name:人民日报语料
        link:https://pan.baidu.com/s/1_E2YA7u61s_ZSSFV0IrHJA
        pwd:ux12
        desc:人民日报199801语料
        name:领域小说文本语料
        link:https://pan.baidu.com/s/1JC3UyOu8PuJrnn_JUyF9UQ
        pwd:bguf
        desc:13个领域的小说文本集合,5000+小说文本
        name:字幕文本语料
        link:https://pan.baidu.com/s/19BI81W7rFwvLKEjVBPXaUA
        pwd:mpfz
        desc:基于字幕网抓取,70W字幕文本语料
        name:段子文本语料
        link:https://pan.baidu.com/s/1go84Pt8O-AHJJOgJhkG89Q
        pwd:eju6
        desc:基于内涵段子等短文本网站抓取,约50W
        name:歌词文本语料
        link:https://pan.baidu.com/s/1IOCH9EfZInTdI_GvnuedJA
        pwd:nq69
        desc:基于歌词网站抓取,歌词数量约20W

2 word_resources.py:领域语料
包括ÿ

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值