![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
DataWhale
一只燃
这个作者很懒,什么都没留下…
展开
-
第一天 学习笔记 IDMB影评分类
tensorflow 版本1.12import tensorflow as tffrom tensorflow import kerasimport numpy as npimdb = keras.datasets.imdb(train_data, train_labels), (test_data, test_labels) = imdb.load_data('路径/imdb.np...原创 2019-06-21 20:47:39 · 355 阅读 · 0 评论 -
TextCNN学习笔记
参考博客:https://www.cnblogs.com/bymo/p/9675654.htmlTextCnn:将卷积神经网络CNN应用到文本分类任务,利用多个不同size的kernel来提取句子中的关键信息(类似于多窗口大小的ngram),从而能够更好地捕捉局部相关性。网络结构:详细结构学习代码:https://www.kesci.com/home/project/5d22f153...原创 2019-08-14 19:53:08 · 126 阅读 · 0 评论 -
负采样 笔记
如果还是不清楚的可以看动手深度学习 https://www.bilibili.com/video/av18512944?from=search&seid=5689761888129178461 还有一个讲的很精简的https://www.bilibili.com/video/av48065084?p=2...原创 2019-08-10 13:05:26 · 360 阅读 · 0 评论 -
.IMDB,THUCNews数据集下载和探索
IMDB参考Tensorflow官网代码模型如下vocab_size = 10000model = keras.Sequential()model.add(keras.layers.Embedding(vocab_size, 16))model.add(keras.layers.GlobalAveragePooling1D())model.add(keras.layers.Dens...原创 2019-08-07 20:54:19 · 879 阅读 · 0 评论 -
python实现word2vec
https://towardsdatascience.com/an-implementation-guide-to-word2vec-using-numpy-and-google-sheets-13445eebd281https://www.leiphone.com/news/201812/2o1E1Xh53PAfoXgD.html两个链接对照着看实现的是skip_graw模型text ...原创 2019-08-09 15:14:10 · 233 阅读 · 0 评论 -
Attention text
class Attention(Layer): def __init__(self, step_dim, W_regularizer=None, b_regularizer=None, W_constraint=None, b_constraint=None, bias=True, **k...原创 2019-08-18 20:45:29 · 249 阅读 · 0 评论 -
任务4
1朴素贝叶斯朴素贝叶斯的原理利用朴素贝叶斯模型进行文本分类朴素贝叶斯12SVM模型SVM的原理利用SVM模型进行文本分类3LDA主题模型pLSA、共轭先验分布LDA使用LDA生成主题特征,在之前特征的基础上加入主题特征进行文本分类LDA数学八卦 lda2 合并特征1)NLP系列_用朴素贝叶斯进行文本分类 精髓https://blog.csdn.net/han_xiaoya...转载 2019-06-30 19:10:41 · 111 阅读 · 0 评论 -
自然语言处理任务3
TF-IDF原理。文本矩阵化,使用词袋模型,以TF-IDF特征值为权重。(可以使用Python中TfidfTransformer库)互信息的原理。使用第二步生成的特征矩阵,利用互信息进行特征筛选。一1. TF-IDF原理。在文本挖掘预处理之向量化与Hash Trick中我们讲到在文本挖掘的预处理中,向量化之后一般都伴随着TF-IDF的处理,那么什么是TF-IDF,为什么一般我们要加...转载 2019-06-27 20:43:06 · 1221 阅读 · 0 评论 -
自然语言处理任务二
正向最大匹配法在词典中进行扫描,尽可能地选择与词典中最长单词匹配的词作为目标分词,然后进行下一次匹配。算法流程:假设词典中最长的单词为 n 个,那么最大匹配的起始子串字数也为 n 个(1)扫描字典,测试读入的子串是否在字典中(2)如果存在,则从输入中删除掉该子串,重新按照规则取子串,重复(1)(3)如果不存在于字典中,则从右向左减少子串长度,重复(1)逆向最大匹配法在词典中进行扫描...转载 2019-06-24 20:57:49 · 111 阅读 · 0 评论 -
Fasttext 笔记
详细python简单版实现 https://www.kesci.com/home/project/5b63f0c86a25e70011ec80afimdb文本分类原本的句子输入是 sequences = [[1, 3, 4, 5], [1, 3, 7, 9, 2]]在这基础上加入 Bigram =>[1, 3, 4, 5, 1337, 2017], [1, 3, 7, 9, 2,...原创 2019-08-12 14:34:47 · 139 阅读 · 0 评论