【NLP】：1.文本分类

最新推荐文章于 2023-07-09 17:35:20 发布

Jack_Kuo

最新推荐文章于 2023-07-09 17:35:20 发布

阅读量1.2k

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/weixin_37251044/article/details/85866483

版权

NLP 专栏收录该内容

19 篇文章 5 订阅

订阅专栏

1.【重点看这个，有数据有代码，可实现】：手把手教你在Python中实现文本分类（附代码、数据集）

我的notebook实现在这里：https://blog.csdn.net/weixin_37251044/article/details/86101802
代码我放在我的github：https://github.com/JackKuo666/csdn/blob/master/text_classfier/text_classfier.ipynb

2.知乎的一个介绍，但是没有数据

介绍一个比较好的国外博客：https://www.analyticsvidhya.com/blog/2018/04/a-comprehensive-guide-to-understand-and-implement-text-classification-in-python/
上边第一个例子就是这个博客翻译过来的：由例子+数据+代码很详细的介绍了文本分类，当然还有别的nlp模块。

其他：一些NLP数据：

1.搜狗数据：

2.一些nlp数据：

在这里插入图片描述

3. 英文词向量：使用fastText预训练的词向量:

http://fasttext.cc/docs/en/english-vectors.html

上面的页面收集了几个使用fastText训练过的词向量。

通过不同来源学习的预训练的词向量有以下几个：

wiki-news-300d-1M.vec.zip: 在维基百科2017、UMBC webbase语料库和statmt.org新闻数据集中(16B tokens)训练的100万个词向量。>

wiki-news-300d-1M-subword.vec.zip: 在维基百科2017、UMBC webbase语料库和statmt.org新闻数据集(16B tokens)中包含子单词信息训练的100万个词向量。

crawl-300d-2M.vec.zip: 在Common Crawl训练的200万个词向量 (600B tokens)。

Format

文件的第一行包含词汇表中的单词数量和向量的大小。每一行都包含一个单词及其向量，如默认的fastText格式。每个值都是分开的。单词是按词频降序排列的。这些文本模型可以使用以下代码在Python中加载:

import io

def load_vectors(fname):
    fin = io.open(fname, 'r', encoding='utf-8', newline='\n', errors='ignore')
    n, d = map(int, fin.readline().split())
    data = {}
    for line in fin:
        tokens = line.rstrip().split(' ')
        data[tokens[0]] = map(float, tokens[1:])
    return data

Jack_Kuo

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
【NLP】：1.文本分类

【重点看这个，有数据有代码，可实现】：手把手教你在Python中实现文本分类（附代码、数据集）：https://blog.csdn.net/Tw6cy6uKyDea86Z/article/details/80416475知乎的一个介绍，但是没有数据：https://zhuanlan.zhihu.com/p/27447133搜狗数据：https://www.sogou.com/labs/reso...
复制链接

扫一扫