NLP
黑桃5200
这个作者很懒,什么都没留下…
展开
-
NLP学习——文本相似度计算
导入模块from gensim.models import Word2Vecimport jiebaimport numpy as npFILE_PATH = "./data/wiki_tiny.txt"MODEL_PATH = 'word_vec.model'读取文件def read_text(FILE_PATH): sentences = [] with op...原创 2020-01-03 16:49:21 · 375 阅读 · 0 评论 -
Datawhale《深度学习-NLP实践》Task1
文章目录1. 任务2. IMDB数据集下载和探索3. THUCNews数据子集探索1. 导入包2. 读取文件3. 读取停用词4. 切分数据,并删除停用词5. 获取单词列表6. 提取特征 向量化4. 召回率、准确率、ROC曲线、AUC、PR曲线基本概念4.1 召回率 recall4.2 分类准确率 accuracy4.3 精确率Precision4.4 F1值4.5 混淆矩阵4.6 AUC4.7 R...原创 2019-03-06 21:42:50 · 484 阅读 · 1 评论 -
Datawhale《深度学习-NLP实践》Task3
文章目录1. 任务2. TF-IDF原理2.1 词频 (term frequency, TF)2.2 逆向文件频率 (inverse document frequency, IDF)2.3 TF-IDF3. 文本矩阵化,使用词袋模型,以TF-IDF特征值为权重。3.1 使用TfidfTransformer3.2 使用CountVectorizer4. 互信息的原理。4.1 点互信息PMI4.2 ...原创 2019-03-07 20:18:32 · 349 阅读 · 0 评论