- 博客(10)
- 收藏
- 关注
原创 解决神经网络训练过程中加载大文件造成的内存、显存爆炸的情况
最近在跑模型时因为用BERT预训练模型提取评论文本的动态词向量,对于6000个用户,每个用户12条评论,每条评论202个单词,768维的向量大约有40G,如果直接提取,无论是内存还是显存都吃不下,而且如果在模型中一条条提取的话,huggingface开发的transformers虽然可以做到,但预训练模型会在显存中占据2.2G的显存,我的显卡(1080ti 11G显存)在占据2.2G后可以跑的模型batch只有2,无疑会造成速度慢、泛化能力差等问题。我的解决思路是把600012202*768的向量存到不
2020-11-02 21:26:23 2615 2
原创 Neu-Review-Rec-master使用初识
Neu-Review-Rec-masterNeu-Review-Rec-master是一个基于评论文本的深度推荐系统模型库 (Pytorch),地址。使用步骤在github里有,但使用细节没有说明,这里记录一下使用心得。项目架构项目包含六个文件夹和一个main.py文件。checkpoints:保存模型,用于后期的test以及predictconfig:里面是配置文件,包含一个例子所用的Digital_Music_data_Config,如果后期需要用到别的数据集要修改其中的配置文件(记得在_
2020-07-27 15:53:02 474
原创 BERT对中文文本分类实践(基于cnews数据集)
最近在学习BERT,所以想用文本分类试验一下,本以为会很简单,但还是遇到不少问题。参考的文章有:这篇文章有一个小坑这篇是正解数据集链接:https://pan.baidu.com/s/1LzTidW_LrdYMokN—Nyag提取码:zejw数据格式如下从https://github.com/google-research/bert上克隆项目。下载BERT的中文预训练模型:链接:https://pan.baidu.com/s/14JcQXIBSaWyY7bRWdJW7yg提取码:mv
2020-06-12 15:31:25 3995 24
原创 text_cnn进行文本情感分析时遇到的问题
项目是在github上看到的:https://github.com/dennybritz/cnn-text-classification-tf是基于tensorflow进行的文本情感分析,由于代码使用规范可能较老,所以出现了一些问题,这里予以记录:1.train.py文件FLAGS.flag_values_dict()#TensorFlow版本升级后,它就无情的抛弃了FLAGS._parse_flags()这种用法,改成了用FLAGS.flag_values_dict()#FLAGS._parse
2020-05-20 10:24:15 621
原创 ubuntu18用虚拟机配置伪分布式Spark
参考:https://blog.csdn.net/Flamewaker/article/details/88085451因为在实验室的系统装的是ubuntu,所以在ubuntu上下载vmware workstation进行虚拟机配置,参考的博客写的非常好,这里就写一下中间遇到的坑。1.ssh配置时将密钥发给其他节点时permission denied(publickey,password)这是由于ssh配置文件中拒绝root用密码登录解决方法:#sudo vim /etc/ssh/sshd_con
2020-05-12 16:27:58 213
原创 win10+idea+spark+scala+sbt配置
最近刚刚在学习spark,涉及到配置sbt,焦头烂额,遇到了各种问题,这里详细讲讲这些问题(不讲具体怎么配置,个人经验)。环境:win 10 x64idea 社区版hadoop 2.7.2spark 2.4.5 spark2.4.5下载官网scala 2.11.8如果什么都没有装的,可以看看这篇文章:https://blog.csdn.net/a1066196847/article...
2020-03-16 12:54:05 562
原创 爬虫学习:淘宝商品价格比价
最近在学习爬虫,看的是嵩天老师的视频,看到淘宝价格爬取的时候,遇到了问题,视频中的代码如下:import requestsimport re def getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r....
2020-02-16 17:40:53 1752 1
原创 IDEA配置hdfs遇到的问题
通过网上教程看到的一个查询hdfs中是否有某文件的java程序:import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.log4j.BasicConfigurator;pub...
2020-01-08 14:29:57 807
原创 ubuntu配置Hadoop和Sprak
Spark安装配置1.先去Scala和spark官网下安装包2.通过如sudo tar zxvf spark-3.0.0-preview-bin-hadoop3.2.tgz -C /usr/local/解压安装。3.文件夹改名sudo mv spark-3.0.0-preview-bin-hadoop3.2 spark4.配置~/.bashrc5.配置配置spark-en...
2020-01-02 20:55:43 177
原创 利用C创建顺序表并进行增删改和合并。
利用C创建顺序表并进行增删改和合并。最近在学习数据结构,做了一下第二章的一些算法,作为小白记录一下。#include <stdio.h>#include <stdlib.h>#define LIST_INIT_SIZE 100#define LISTINCREMENT 10#define OVERFLOW -2#define OK 1#define ERRO...
2019-09-28 16:25:54 286 4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人