gyl2016-CSDN博客

原创 TypeError: only integer tensors of a single element can be converted to an index

深度学习中遇到的bug

2022-09-15 17:26:02 6388

原创 Large-batch-size与模型泛化性的问题

paper—《Bag of Tricks for Image Classification with Convolutional Neural Networks》中提到“Using large batch size, however, may slow down the training progress. For convex problems, convergence rate decreases as batch size increases. Similar empirical results

2022-01-03 17:52:35 1345

原创 spark中dropDuplicates和distinct的区别

spark中去重算子问题

2021-12-21 18:00:18 2436

原创 Tensorflow 获取model中的变量列表

1、动态获取 + 朴素获取法 + 朴素获取可训练变量：t_vars = tf.trainable_variables() + 朴素获取全部变量，包含声明training=False变量：all_vars = tf.global_variables() + 使用tensorflow.contrib.slim + 获取常规变量(是slim里面与model变量对应的一个类型)：regular_variables = slim.get_variable...

2021-07-02 20:57:05 924

原创 spark中两表字段顺序不一致合并时union和unionAll的问题

背景：最近在利用spark合并两个表的时候，当两个表的字段顺序不一致时，合并后的结果是错误的。举例：

2021-06-17 15:06:43 2974 1

原创 Error: invalid log directory /app/spark/...

问题背景：在以stanalone方式部署的spark环境中，以cluster方式提交application后，过了半天发现在web页面driver上stdout和stderr上的日志全部都没有了，stdout中显示error: invalid log director /app/spark/...问题原因：由于在spark-env.sh中配置了每个worker清理日志的时间，即SPARK_WORKER_OPTS='-Dspark.worker.cleanup.enabled=true -Dspark.

2021-06-15 16:56:52 821

原创 spark中关于Insufficient space for shared memory file和java.io.IOException: No space left on device

背景：在spark中，去重后将数据写入到hdfs中时，报错：Insufficient space for shared memory file和java.io.IOException: No space left on device。原因：由于去重会带来shuffle，在shuffle过程中空间不足造成的。在spark-env.sh中找到SPARK_LOCAL_DIRS配置的目录/tmp/spark/tmp，然后利用du -sh /tmp查看空间发现满了，利用率为100%解决方法：（1）扩大/tmp挂载

2021-06-10 11:06:50 575

原创 spark 报：Warning: Master endpoint spark://ip:7077 was not a REST server. Falling back t

在利用spark以cluster方式提交application时会发现这个警告：Warning:Masterendpointspark://ip:7077wasnotaREST server.Fallingbacktolegacysubmissiongatewayinstead.提交方式：spark-submit --master spark://ip:port --deploy-mode client(cluster)原因：端口问题，解决方式：spark以clien...

2021-05-20 20:07:49 1426 2

原创 keras获取中间层结果的两种方式

keras获取中间层有两种方式：（1）通过tf.keras.backend.function函数获取；（2）通过tf.keras.models.Model函数获取；对于第一种方式，主要是利用tensor name获取，具体可见https://blog.csdn.net/NOT_GUY/article/details/108290883；对于第二种方式，使用步骤如下：1）第一步，构建好模型；2）第二步，利用keras的summary函数打印模型结构图；3）第三步，训练模型；4）

2021-05-12 20:02:01 1988

原创 ModuleNotFoundError: No module named xxx

背景：自己封装了一个package，并且含有多个子package，每个子package下有多个不同的Moudle，然后再引用Moudle时，在pycharm中运行没有问题，但是将这个文件夹放在linux环境下时，出现了错误：ModuleNotFoundError: No module named 'package'。结构如下：package: ├─ sub_package0 │ ├─ __init__.py │ ├─ utils.py ...

2021-04-29 17:00:49 1501

原创 tornado框架简单部署lightgbm模型服务

本文讲一下利用tornado框架简单部署lightgbm模型服务的demo，具体步骤如下：首先，准备好线下训练好的lightgbm模型文件，本文使用iris数据集训练得到。然后，部署代码deploy.py如下：import tornado.ioloopimport tornado.webimport jsonimport joblibimport numpy as npclass MainHandler(tornado.web.RequestHandler): def g

2021-04-27 18:10:51 745 4

原创 maven将项目依赖一起打包

今天项目打包的时候发现，jar包中只有自己写的主类，没有依赖，于是找了下如何将依赖与主类一起打成一个jar包。在pom.xml中<build>中添加如下代码：<plugins> <plugin> <groupId>net.alchim31.maven</groupId> <artifactId>scala-maven-plugin</

2021-04-13 19:19:45 1149

原创 docker下免密登录失败的环境问题

碰到问题：配置好hosts、公钥，从hadoop-master端ssh-copy-id复制hadoop-slave公钥时，发现要输入hadoop-slave的密码，但是输入正确密码后发现还是登录不进去原因：vim /etc/ssh/sshd_config中PermitRootLogin参数值为prohibit-password，这个含义是“允许root登录，但禁止root用密码登录”解决方法：将PermitRootLogin参数值修改为yes，然后重启ssh服务：sudo service ssh res

2021-04-09 23:22:55 1869

原创 tensorflow使用cpu不用gpu的问题

前提：cuda版本和cudnn版本已安装好，版本对应没问题；问题：在安装好cuda、tensorflow、tensorflow-gpu的环境下，调用tensorflow跑模型，发现cpu资源占满，而gpu处于空闲状态。导致上述问题的原因可能有两个：（1）tensorflow-gpu的版本低于tensorflow的版本；（2）cuda版本与tensorflow-gpu版本对应不上；对于第一个原因：tensorflow-gpu的版本低于tensorflow的版本，有以下检查方法：（1）跑模

2021-03-25 10:55:19 4343

原创利用tf.tile和tf.reshape和tf.transpose达到np.repeat效果

问题：将二维矩阵A复制后变换为三维矩阵B，示例如下： ----------------------> 如果是numpy库，则可以直接使用np.repeat和np.reshape实现由于tensorflow-1.12中没有tf.repeat函数，所以只能通过其他方式实现，即：tf.tile+tf.reshape+tf.transposetf.tile中参数multiples为[1,5]，即第一维重复1份，第二维重复5份...

2021-02-07 15:31:25 1549 1

原创使用Pyhive连接hive时出错：thrift.transport.TTransport.TTransportException: Could not start SASL

安装Pyhive需要以下依赖：sasl==0.2.1、thrift==0.13.0、thrift-sasl==0.4.2以上安装完成后，安装pyhive成功。导入pyhive包，connection连接hive时，报以下错误：thrift.transport.TTransport.TTransportException: Could not start SASL: b'Error in sasl_client_start (-4) SASL(-4): no mechanism available:

2021-01-29 17:21:13 6119

原创 lightgbm模型处理类别型特征

类别型特征编码由于是字符串类型，所以一般需要经过编码处理转换成数值型。本文主要想说的是直接将字符串值传到lightgbm中训练。注意：xgboost模型也需要提前one-hot编码转换才能入模。下面是代码： a = [i for i in range(1000)] b = ["tag","bga","efd","rfh","esg","tyh"] c = [b[randint(0,5)] for i in range(1000)] d = [randint(0,1)

2021-01-16 20:39:32 9977 9

原创 pyspark使用分布式xgboost

亲测跑通环境： Python 3.6.5 Pyspark：2.4.5 Spark: 2.4.3步骤：第一步：配置好环境第二步：下载相关文件（下载地址） xgboost4j-0.72.jar xgboost4j-spark-0.72.jar Sparkxgb.zip 第三步：关键点1：将xgboost4j-0.72.jar和Xgboost4j-spark-0.72.jar添加到job中（使用--ja...

2020-12-18 18:16:53 2847 19

原创基于tensorflow-hub使用预训练bert模型——简单易上手成功率百分百

最近，研究了下如何使用基于tensorflow-hub中预训练bert，一开始找到的关于预模型使用介绍的官方教程国内打不开，所以看了很多博客遇到了很多坑，直至最后找到能打开的教程，才发现使用很简单。实验版本： tensorflow版本: 2.3.0 tensorflow-hub版本：0.9.0 python版本: 3.7.6数据准备：首先，熟悉bert的都知道输入有3个：input_ids、input_mask、seg...

2020-10-02 00:11:51 4099 1

原创 Non-OK-status: tensorflow::Env::Default()-＞DeleteFile(ptx_path) status: Not found

最近在跑程序时，出现过好几次这个问题，当时在官方tensorflow的github上查到了这个问题，见：https://github.com/tensorflow/tensorflow/issues/39712，工作人员回复让试一下tf-nightly（应该是最新迭代的版本），但由于tensorflow版本多人再用，所以也没试这种方法。今天又碰到这个问题，研究了一下，下面首先给出我这里几次碰到这个问题的背景：（1）由于有多人在使用GPU，所以前几次都是在GPU占用比较大的情况下，然后我跑个程序就出现

2020-09-28 00:25:48 854 1

原创 tensorflow.keras中多输入多输出遇到的几个问题

这里，主要是想构建3个输出，然后计算3个输出的损失函数，并按权重将损失函数加起来作为总的损失模型构建部分class MyModel_add3loss(tf.keras.Model): def __init__(self): super(MyModel_add3loss,self).__init__() self.inputa = tf.keras.layers.InputLayer(input_shape=(60, 8, 1)) self.

2020-09-23 17:02:20 6797 8

原创 ValueError: Output tensors to a Model must be the output of a TensorFlow `Layer`

最近在看tensorflow.keras的多输入多输出时，碰到了这个问题，在这里记录一下。首先给出报错代码：# 两个输入main_input = tf.keras.layers.Input(shape=(784,),dtype=tf.float32,name="main_input")auxiliary_input = tf.keras.layers.Input(shape=784,),dtype=tf.float32,name="auxiliary_input")## 网络1x = t

2020-09-15 17:31:55 3547 1

原创 pyspark遇到的坑

问题1：All master are unresponsive! Giving up.问题1—提交代码的方式：spark-submit connectedComponentAnalysis.py --master yarn --deploy-mode cluster --executor-memory 3g --num-executors 10问题1—代码环境配置：conf = SparkConf()conf.setAppName("cca")sc = SparkContext(con

2020-09-02 22:04:41 1118

原创 tensorflow中使用预训练模型进行微调

预训练模型进行微调定义模型class MyModel(tf.keras.Model): def __init__(self, height=None,width=None,channel=None): super(MyModel,self).__init__() self.inputshape = tf.keras.layers.InputLayer(input_shape=(height,width,channel)) # self.

2020-08-29 16:20:48 1557

原创 tensorflow获取模型中间层结果及错误tf.keras.backend.function Layer ‘ + self.name + ‘ has no inbound nodes.

错误使用1、构建模型：import tensorflow as tfimport collectionsfrom efficientnet import tfkerasclass MyModel(tf.keras.Model): def __init__(self, height=None,width=None,channel=None): super(MyModel,self).__init__() self.inputshape = tf.

2020-08-29 10:55:13 5229 11

原创 ValueError: Shape must be rank 0 but is rank 1 for ‘Adam/update_weight/ApplyAdam‘ (op: ‘ApplyAdam‘)

原代码：self.lr = tf.placeholder(shape=[1],dtype=tf.float32,name="learning_rate")。。。。。。 optimizer = tf.train.AdamOptimizer(learning_rate=self.lr)self.trainops = optimizer.minimize(self.cost)

2020-07-03 15:42:13 1527

原创 Spark中dataframe里data.drop()和data.na.drop()的区别

问题描述：原始数据data总行数是1303638，使用data.drop()后数据总行数是1303638，使用data.na.drop()后数据总行数是0；为啥data.drop()没有丢弃null或nan的数据？总结： 1）data.drop()如果不传递列名，不会做任何操作； 2）通过以下比较发现，drop是用来丢弃列的，而na.drop是用来丢弃行的； 3）通过以下比较发现，dataframe.drop是直接调用的dataset中drop接口； 4）如果想要...

2020-05-22 23:33:02 7999

原创 sklearn.cross_val_score和sklearn.roc_auc_score

1、sklearn.model_selection.cross_val_score(estimator,X,y=None,groups=None,scoring=None,cv=None,n_jobs=None,verbose=0,fit_params=None,pre_dispatch='2*n_jobs',error_score=nan)（1）cv参数定义交叉验证方式：...

2020-03-27 23:21:48 1791

原创 GPU在bash和python代码中的写法

1、bash中## bash设定GPU卡顺序：export CUDA_DEVICE_ORDER = "PCI_BUS_ID"指定第1块和第2块GPU卡：export CUDA_VISIBLE_DEVICES="0,1"2、python代码中## pythonimport osos.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"...

2020-03-01 14:29:10 3572

原创服务器搭建hadoop集群

环境使用centos作为系统环境，基于原生 Hadoop 2，在Hadoop 2.7.x版本下验证通过，可适合任何 Hadoop 2.x.y 版本，例如 Hadoop 2.7.1，Hadoop 2.4.1 等。本教程简单的使用两个节点作为集群环境: 一个作为 Master 节点，局域网 IP 为 192.168.1.121；另一个作为 Slave 节点，局域网 IP 为 192.16...

2020-01-20 17:39:32 609

原创 Python错误：TypeError: 'list' object is not callable

错误原因1、在调用某个函数时，报该错误；从错误提示可以看出，调用的函数是"list"类型，所以原因是代码中有变量名与函数名重复。

2020-01-15 17:11:47 2869

原创大数据路上的bug坑

1、[ERROR] Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.5:compile (default-compile) on project easyml-manage: Compilation failure: Compilation failure: [ERROR] /D:/gyl/gite...

2019-11-02 16:29:42 3975

原创 python安装sklearn2pmml和jpmml-sklearn

sklearn2pmml：将训练模型直接导出为PMML文件。1、安装或更新sklearn：pip install -U scikit-learn2、安装sklearn-pandas：pip install sklearn-pandas3、安装sklearn2pmml：pipinstall --user --upgrade git+https://github.com...

2019-10-23 14:05:08 4825

原创 ubuntu18.04首次配置hadoop伪分布式以及出现的问题

1、搞明白单机、伪分布式和集群的区别单机：也称非分布式，是直接读写本地操作系统的文件系统，一般仅用于本地MR程序的调试。直接解压hadoop包就行，无需配置。伪分布式：在一台单机上运行，但用不同的Java进程模仿分布式运行中的各类结点: (NameNode,DataNode,JobTracker,TaskTracker,SecondaryNameNode)。在“单节点集群”上运行Hadoo...

2019-09-28 23:57:02 731 1

原创 spark-ml和jpmml-sparkml生成pmml模型过程种遇到的问题

需求：利用pmml(预测模型标记语言)来实现跨平台的机器学习模型部署。pmml简介：参考链接1如何将模型生成pmml格式：参考链接31、成功的写法：将数据的各种transform和模型全部都放入pipeline中，可以生成pmml。代码如下：import org.apache.spark.ml.linalg.Vectorsimport org.apache.spark...

2019-08-25 01:34:26 5477 13

原创 sizeof用法

下面程序中，fun() 函数有一个 p[] 参数，并试图使用 sizeof 计算 p[] 中元素的个数#include<iostream>#include<stdio.h>using namespace std;void fun(int p[]){ //计算数组的长度 int length = sizeof(p) / sizeof(p[0]);...

2019-03-26 11:39:52 521

原创 pandas中dataframe和转换为透视表的dataframe进行merge时，出现KeyError的问题

本人觉得是pandas版本问题，因为升级版本后，该问题就解决了(version-0.20.3 ——> version-0.23.3)首先，dataframe变量和转换为透视表的dataframe变量如下：将两个变量进行Merge操作时，报错：KeyError...

2019-03-13 23:10:21 5829 10

原创使用git上传代码到github项目分支（2）

1、在前篇中写的是上传到github仓库中的master分支下，这篇来讲一讲如何在master分支下，新建一个分支，并上传到该分支下。具体的区别在于第6步，当把要上传的本地文件复制到test文件夹下，之后应该改为这样git branch test (新建一个名称为"test"的分支)git checkout test (从master切换到分支test下)gi...

2019-03-11 11:41:38 2769

转载使用git上传代码到github仓库（1）

参考：https://www.cnblogs.com/mr-wuxiansheng/p/6974170.html1、进入github首页，点击New repository新建一个项目2、填写相应信息，然后进行创建各区域描述： Repository name: 仓库名称 Description(可选): 仓库描述介绍 Public, Priv...

2019-03-11 11:13:18 515

原创 python编程易错问题

1、列表中索引超出列表长度时，不会产生IndexError错误，而是输出 [] 。2、给DataFrame的某一列进行赋值操作，遇到的警告oof = df_train[['ID_code','target']] # type(df_train) ==> DataFrameoof['predict'] = 0oof["predict"][val_idx] = p_...

2019-03-09 11:21:39 540

空空如也

空空如也