NLP
jidushanzhu
小菜鸟
展开
-
word2vec模型保存并载入
word2vec模型代码来自https://github.com/eecrazy/word2vec_chinese_annotation/blob/master/cbow.py。模型保存并载入参考https://blog.csdn.net/thriving_fcl/article/details/71423039两个问题,模型保存有问题,保存模型中不存在train_dataset和trai...原创 2020-05-08 10:54:53 · 1156 阅读 · 1 评论 -
word2vec中的generate_batch理解
先是各个参数。batch_size:训练数据一个输入多少个批次;skip_window:窗口大小,有点类似于滑动窗口;num_skips:一个词语产生多少个label,若为1,则取该词左边或右边当作1个label,若为2,则可取该词左右两边形成两个label。如下图,skip_window=1,num_skips=2的图如下所示,句首ID前补0,每一个单词具备左右两个词作为其label。一...原创 2020-05-07 11:42:55 · 777 阅读 · 0 评论 -
提取网页中动态加载的内容
在ywbd网站上爬取指定关键字内容。网页源代码与用chrome审查内容不同,查看网页源代码,发现浏览器对源代码动态渲染加载过得到我们所见的网页。与很多爬虫教学视频不同,这个网址有以下几个问题:1、查找后左边这个文件的response中有我需要的网址,但是他每次的callback都不相同。2、左边这个文件headers中的URL我用浏览器打不开,提取出该字段也没用。——————...原创 2020-04-17 18:02:11 · 1260 阅读 · 0 评论 -
textCNN 多分类
参考https://github.com/dennybritz/cnn-text-classification-tf基于TextCNN模型的文本分类问题:随机生成的字向量表未保存,模型的test.py没写1、数据来源于诊断库,该excel文件总共包含条诊断数据,个类别,前90%数据当作训练集,后10%数据当作测试集。2、文本预处理:载入词典,去停用词,分词。3、词向量化:统计所...原创 2019-12-09 11:31:15 · 830 阅读 · 0 评论