nlp
文章平均质量分 90
自然语言识别
—Xi—
机器学习/数据挖掘/爬虫/推荐系统
展开
-
【NLP】关于Word2Vec词向量与keras的Embedding层的学习总结
最后,我们不更新此模型中学习的单词权重,因此我们将将模型的可训练属性设置为False。类,可以配合训练数据,可以将文本转换为序列,通过调用texts_to_sequences()的方法标记生成器的类,并提供访问字的字典映射到整数在word_index属性。只能接受长度相同的序列输入。3.它可以用于加载预训练的词嵌入模型,是种迁移学习,将词嵌入模型转换为权重矩阵输入keras的Embedding层。通过枚举Tokenizer.word_index中的所有唯一的字,并从加载的GloVe嵌入中定位嵌入权重向量。原创 2022-10-13 10:52:50 · 1281 阅读 · 0 评论 -
【nlp】天池学习赛-新闻文本分类-机器学习
数据集中标签的对应的关系如下:{‘科技’: 0, ‘股票’: 1, ‘体育’: 2, ‘娱乐’: 3, ‘时政’: 4, ‘社会’: 5, ‘教育’: 6, ‘财经’: 7, ‘家居’: 8, ‘游戏’: 9, ‘房产’: 10, ‘时尚’: 11, ‘彩票’: 12, ‘星座’: 13}由图可知,字数 10000以上的新闻文本是极少数,小于5000。原创 2022-09-30 11:44:38 · 1420 阅读 · 0 评论 -
【nlp】天池学习赛-新闻文本分类-深度学习1
vector = gensim.models.KeyedVectors.load_word2vec_format('data.vector')为使用保存的词向量加载词向量,在实际使用中更改文件名称即可。vector['非常'] 为该种方法获取词向量的方法。FastText是一种典型的深度学习词向量的表示方法,它非常简单通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作。没有悲欢的姿势, 一半在尘土里安详, 一半在风里飞扬;原创 2022-10-13 20:26:11 · 958 阅读 · 0 评论 -
【NLP自然语言处理】文本特征提取
当有TF(词频)和IDF(逆文档频率)后,将这两个词相乘,就能得到一个词的TF-IDF的值。某个词在文章中的TF-IDF越大,那么一般而言这个词在这篇文章的重要性会越高,所以通过计算文章中各个词的TF-IDF,由大到小排序,排在最前面的几个词,就是该文章的关键词。其中计算语料库中文档总数除以含有该词语的文档数量,然后再取对数就是逆文档频率。原创 2022-09-21 21:48:40 · 1986 阅读 · 0 评论