zhshmi1995-CSDN博客

原创学习Tensorflow之一：利用SparseTensor/Matrix(稀疏张量或矩阵)优化机器学习模型中的embedding

搭建基于python的深度学习模型过程中，常见的一个问题是如何利用有效的内存来进行超大数据量的计算，这个问题带来了很大的内存开销和计算开销。比较好的解决办法是利用scipy.sparse库以稀疏矩阵形式来保存数据，然后在机器学习模型中导入数据，再将数据转换成稀疏Tensor的形式，以便高效地利用数据。下面...

2020-04-04 16:57:41 2242

原创搭建个人网站之一：在windows10上利用wampserver+wordpress搭建网站环境

1.安装wampserver，首先下载好wapserver.exe文件，以管理员身份运行如图1所示，安装成功后启动wampserver，如图2显示 all services running，即表示安装成功。图1图22.下载wordpress，将下载好的压缩包解压到wordpress文件夹内，然后把wordpress文件夹放在wampserver安装目录下的www文件夹下，并删除以下几个文件...

2020-01-28 20:42:07 644 2

原创学术入门之二: 如何快速地搜索自己需要的论文

１. google scholar (能找到多数的论文，比较全，筛选论文需要一定的技巧): firefox 浏览器有免费的插件可以访问谷歌学术网站，在这不详细介绍了。首先我们搜索一篇名为“Attention is all you need”的论文，搜索界面如下图所示:(左边一栏不作介绍了，是一些简单的筛选操作，右侧会提供一些pdf链接，重点关注论文下侧的双逗号，被引用次数，相关文章，历史版本等。...

2019-11-27 20:19:35 2956

原创学术入门之一：如何在ubuntu16.0.4系统上快速搭建tensorflow以及pytorch环境

在大佬论文的代码基础上修改并加入自己的idea是比较常见的学术上手方式之一，但论文用的框架 (pytorch, tensorflow等) 可能会存在差异，可能需要你同时看几个框架的代码，也可能需要安装同一个框架的多个版本，那么如何在ubuntu上快速搭建相应的环境 (且各个环境之间相互独立存在) 成为一个比较常见的问题。在此向大家推荐安装anaconda平台与pycharm搭配使用，实现各个环境独...

2019-11-24 22:17:32 171

原创利用pytorch_pretrained_bert得到wordEmbedding (batch_size，1024),保存为稀疏矩阵sparse.dok_matrix( )

1.注意本方法只适用于保存2维embedding因为直接将完整的Bert加入到其他模型中，训练时会出现内存不够用的情况，考虑将通过Bert得到的Embedding保存为文件，再在其他模型中导入使用，试过很多保存的方法(numpy.savetxt等)，都不成功，最后采用稀疏矩阵sparse.dok_matrix的方式保存wordEmbdedding,然后利用toarray()方法转换为矩阵形式，发...

2019-07-16 11:47:53 3191 1

原创 logistic Regression+doc2vec实现多标签(multi_label)分类

１．导入需要的各种模块from sklearn.linear_model import LogisticRegressionfrom tqdm import tqdmimport gensimfrom sklearn.preprocessing import MultiLabelBinarizerfrom sklearn.multiclass import OneVsRestClassi...

2019-06-25 11:11:36 879

原创 R语言　gsub处理文本数据中的特殊符号(' | ',空格等)

我要处理一些文本数据，数据格式如下：idcontentcategory1”ab*c()dfhjk?k“１｜３｜５数据文件为1.csv，首先读取数据文件，然后处理第二列数据和第三列数据。将第二列所有特殊符号删除，将第三列的｜转换成空格，然后保存文件:// An highlighted block// [^[:alnum:]///' ]能搞定大部分特殊符号，搞不定...

2019-06-09 17:17:15 15710 1

原创稀疏矩阵 scipy.sparse.csr_matrix 执行判断条件,将对应元素置为0,并保存为npz文件

考虑对稀疏矩阵执行判断条件,去除掉一些不满足条件的元素(这里是将不满足条件的元素值置为0).(1).如果直接对稀疏矩阵操作,然后保存得到npz文件. 执行操作(将稀疏矩阵不满足条件的元素置为0)的效率会非常低:S= sparse.load_npz('1.npz')S[S>1]=0sparse.save_npz('2.npz', S)(2).考虑将稀疏矩阵转换成ndarry数组...

2019-04-12 12:30:38 738

原创 RuntimeError: dimension out of range (expected to be in range of [-1, 0], but got 1) 变量形状问题

在Pytorch中，我想通过点乘操作得到S:// 点乘操作 S=a.mm(b)运行代码时，老是报错:RuntimeError: dimension out of range (expected to be in range of [-1, 0], but got 1)输出a和b的维度发现： a的形状为 [20 , 5], 但是b的形状为[5 , ]。考虑用pytorch中...

2019-04-11 22:17:31 29342

原创 R语言　用cbind合并两列数据

我有两个数据文件，分别只有一列，这两列数据行数一行，我想把这两列合并到一个数据文件中，方便使用。我的两个数据文件分别是1.txt，2.txt，保存后的文件名是３.txt。// 代码如下 gow1<-read.table("1.txt",header = FALSE) gow2<-read.table("2.txt",header = FALSE) Vie...

2019-04-04 21:56:11 8780

weishennuan8947的博客