- 博客(70)
- 收藏
- 关注
原创 dynamic_rnn获取最后一步输出
tf.dynamic的输入参数中包含了一个sequence_lengths参数,传递的是一个batch中序列的真是长度,这个参数默认为None,如果输入的batch中每个样本的序列长度不相同,那么得到的通过dynamic_rnn得到的outputs每一个时间步的输出都不全为0(意思是和static_rnn一样,把padding部分得到的输出也算进来了),如果这时候我想取到真是长度位置的输出要怎么办...
2019-03-26 21:38:22 998
原创 spark读hive表几个关键的配置
spark1.6.0, hive1.1.0pom文件添加<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.10</artifactId> <version>1.6.0</version>
2018-06-27 10:18:22 723
转载 spark1.6的内存管理
对spark中的spark.memory.storageFraction和spark.memory.fraction不理解,网上找了,自己画张图,原文地址:https://www.cnblogs.com/dreamfly2016/p/5720526.html
2018-06-15 11:09:58 305
转载 AUC的物理意义
觉得这篇文章写得蛮清楚的,mark转载自https://blog.csdn.net/gogoaway/article/details/534456701 AUC,ROC简单解释 ROC(Receiver Operating Characteristic)曲线的横坐标为TNR(负样本正确率),纵坐标为TPR(正样本正确率),以下为关于TPR,TNR的一些摘抄:True Positive (真正, T...
2018-06-14 12:52:20 7490
转载 mapPartitions
转自:http://wanshi.iteye.com/blog/2183906rdd的mapPartitions是map的一个变种,它们都可进行分区的并行处理。两者的主要区别是调用的粒度不一样:map的输入变换函数是应用于RDD中每个元素,而mapPartitions的输入函数是应用于每个分区。假设一个rdd有10个元素,分成3个分区。如果使用map方法,map中的输入函数会被调用10次;而使用m...
2018-06-14 11:22:44 2436
原创 scala 常用函数(持续更新)
1.时间转日期val sdf = new SimpleDateFormat("yyyyMMdd")val date = sdf.format(new Date(time * 1000)) //转成毫秒
2018-06-01 10:48:31 1069
转载 Spark中Task,Partition等关键概念
先盗一个图输入多个hdfs文件,每个文件有多个block,当spark读取多个文件时,将多个block合并为一个输入分片(InputS)
2018-05-26 13:45:01 3036
转载 Spark RDD Persistence
http://www.cnblogs.com/yurunmiao/p/4966393.htmlSpark最为重要的特性之一就是可以在多个操作(Action)之间,将一个或多个RDD关联的数据集(Dataset)以分区(Partition)为单位进行持久化(Persist)或缓存(Cache),存储介质通常是内存(Memory)。 被持久化或缓存的RDD A可以在两种情况下被很好地“重复”利用: (...
2018-05-23 16:33:01 194
转载 局部敏感哈希(LSH)资料(附链接)
最近在看大规模相似数据召回,翻到一个好的资料,分享给大家。原文地址:https://janzhou.org/lsh/,感谢博主。Similarity Measure Similarity measure is a real-valued function that quantifies the similarity between two objects. Although no single ...
2018-05-17 15:37:05 2777
转载 scala中的“《:”
原文地址:https://blog.csdn.net/i6448038/article/details/52061287在看源码的时候出现了“<:” 符号,不知道怎么用,原文总结的很好, mark一下”<:”符号我们定义一个类:“Earth”class Earth { def sound(){ println("hello !") }}我们定义了一个子类:“Anima...
2018-05-14 20:07:01 3493 3
转载 spark 数据倾斜
最近的程序在执行的时候发现数据倾斜的比较厉害,有的task执行的很快,但有些task及其慢,找了一些解决数据倾斜的办法,觉得这篇文章写得特别好,原文地址:https://zhuanlan.zhihu.com/p/21483985,mark一下,方便日后复习。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就...
2018-04-25 13:34:30 203
原创 java多线程,CountDownLatch和ExecutorService的简单应用
CountDownLatch可以保证程序在子线程都执行完毕的情况下再执行主线程使用方法:对CountDownLatch对象设置初值,每个线程执行完后调用countDown方法,计数器减1,所有线程都执行完毕后,计数器为0,继续执行主线程。代码如下:import java.util.concurrent.CountDownLatch;public class CountDownLatchTest...
2018-04-25 12:00:19 3645
原创 spark StackOverflow报错
今天用mllib中的FPGrowth算法跑程序,过程中报错StackOverflow,通过设置spark.executor.extraJavaOptions适当增大永久代内存spark.executor.extraJavaOptions=-Xss4096k。在查询问题的过程中看见了一篇spark的性能调优的文章,很好,mark一下https://blog.csdn.net/ainidong2005...
2018-04-10 14:48:20 1195
原创 java写hdfs文件有乱码
java写到hdfs文件中,用hadoop命令查看没有问题,spark程序读取再println也没问题,用spark-shell collect的时候出现乱码。回到代码中发现用writeChars()这个函数写入文件,解决办法:用write(str.getBytes())就好了。String resultStr = guid + "\t" + StringUtils.join("#", recVi...
2018-04-10 11:31:25 2090
原创 java读取hdfs数据
想在一台搞了小半天,终于调通了,感觉有些地方和网上说的不太一样,mark一下。目的:在java程序中访问hdfs数据,用作后续处理。主要在配置,要加载hadoop下面的core-site.xml和hdfs-site.xml这两个文件,还要自己手动添加一个配置文件(因为在客户端访问需要秘钥)。贴一下比较重要的部分的代码:configuration.addResource(new FileInputS...
2018-03-22 17:43:32 2162 1
原创 关于FPGrowth和Jaccard距离的思考
目的:计算视频A和视频B的相似度。采用Jaccard距离计算就是Num(A∩B)/Num(A∪B),假设在计算的样本集中A和B出现的次数很多,那么结果基本接近1,在视频推荐中,会让很热,曝光很多的视频继续曝光。采用关联规则来分析,只取出A->B这种简单的规则。同样,当A在训练集中出现的次数很大,B在训练集中出现的次数很小时,在支持度这一步就很容易将B(与B组合的其它项集)pass,但A很多,...
2018-03-20 17:29:47 355
原创 java 加载resource中的文件
借鉴了网上其它网友的文章,主要为了备用。用getResourceAsStream可以在jar包中加载,如果用LstmSeqModel.class.getResource("lstmSeq.pb").getPath()加载会报错。 InputStream is = LstmSeqModel.class.getResourceAsStream("/lstmSeq.pb"); int count = ...
2018-03-16 11:26:39 3844
原创 java 打包成jar包,加载tensorflow模型报错
今天遇到一个问题,没有解决, mark一下。java加载tensorflow的pb模型时,传递模型所在路径加载没有问题,想着放在resource中加载试一下,然后在本地运行依旧没有问题,但是打包成jar包,再运行就报错:Exception in thread "main" java.lang.IllegalArgumentException: Invalid GraphDef at org.ten...
2018-03-16 11:09:51 2915 1
原创 java opencv读取url中的图片(只有一张,情况特殊),返回Mat形式
采用imdecode函数 String strUrl = "http://...; InputStream is = null; ByteArrayOutputStream os = new ByteArrayOutputStream(); URL url = null; try{ url =
2017-08-29 20:09:32 2406 1
原创 centos7 安装TensorFlow和caffe,CPU版,python2.7
centos7自带python2.7,建议不要采用python3.4+,踩了好多坑。。。用自带的2.7很简单。一定要先安装 epel-release!,因为这个权威的yum源会帮你找到很多包,装起来就简单了。1、TensorFlowtf安装很容易,其实按照官网装就可以,但是总有人不愿意看官网。。我才用的是
2017-08-29 15:58:19 968
原创 Java学习笔记(一)对象数组的初始化
刚学java,遇到对象数组初始化问题,报错:Exception in thread "main" java.lang.NullPointerException...题目:有个student类,建立一个student数组,并通过name,email等方式查询。
2017-03-09 11:47:49 630
原创 Linux中Control+z和Control+c
Linux中Control+z和Control+c都是中断命令。不同点:control+z是任务中断,但任务并没有结束,它还在进程中,但状态是维持挂起状态,我们可以使用fg或者bg来继续前台或者后台的任务(fg重新启动前台被中断的任务,bg后台执行被中断的任务)。当你执行指令find / -name “test.c”,按ctrl+z中断,你可以fg+作业号前台继续执行,也可以bg+作业号后
2016-08-11 21:00:33 27772
原创 并查集
以一个例子开始吧,我觉得这样比较好理解。如果Marry和Tom是亲戚,Tom和Ben是亲戚,你可以推出Marry和Ben是亲戚。再者,{1,2}两个点是连通的,{2,3}两个点也是连通的,当出现{1,3}这对点的时候,三个点就组成环了,这在Kruskal算法(最小生成树)中很有用。我们使用并查集主要是为了寻找一个元素的代表,如下图所示,其中e就是集合{e,f,g}的代表,意思是,当进来一组新的
2016-08-03 15:41:35 398
原创 Static变量的作用
1. 全局变量声明为Static全局变量全局变量是静态存储方式,Static全局变量也静态存储方式,存储方式一样。但是非静态全局变量的作用域是整个源程序,包括源程序中的各个单文件;而Static全局变量的作用域是单文件,源程序中的其他文件不能使用它,也就是作用域不同。2. 局部变量和Static局部变量一旦局部变量声明为Static,就改变了局部变量的存储方式和生存期,static
2016-07-31 21:47:41 742
原创 C++的继承,多态和组合
首先,继承是子类继承父类的关系;组合是类与类的包含关系;多态是是“一个接口,多种方法”,程序在运行时才决定调用的函数,这里,子类可以修改继承来的父类中的函数(通过虚函数的方式),覆盖掉原来的继承过来的函数。举个例子,父亲是父类,有吃饭睡觉等等功能,当儿子继承父亲这个类的时候,吃饭,睡觉这些函数直接继承过来就好了,因为都一样,没必要再定义一遍。其中,父类的一个函数为爱好,父亲的爱好是运动,而儿子
2016-07-31 21:23:57 934
原创 STL中vector, Map, Set的实现原理
1、Vector是顺序容器,是一个动态数组,支持随机存取、插入、删除、查找等操作,在内存中是一块连续的空间。在原有空间不够情况下自动分配空间。所谓的自动分配空间指的是会另外开辟一个是原有空间两倍的内存空间,然后把数据都移过去,再将原有空间释放掉,所以,对vector的操作中如果引起了空间重新配置,指向原有vector的所有迭代器就失效了,不能再用。另外,vector随机存取效率高,但是在vecto
2016-07-25 21:32:47 2203
原创 损失函数
损失函数统计学习中常用的损失函数:平方损失函数 平方损失函数是最常见的损失函数,在回归中经常使用。 L(Y,f(X))=(Y−f(X))2L\left( {Y,f\left( X \right)} \right) = \left( {Y - f\left( X \right)} \right)^2 0-1损失函数 L(Y,f(X))=I(Y≠f(X))L\left( {Y,f\left(
2016-07-10 17:46:45 3857
原创 pyinstaller生成的exe运行报错 Intel MKL FATAL ERROR: Cannot load mkl_mc3.dll or mkl_def.dll
在.py文件中加入import ctypesimport osimport sysif getattr(sys, 'frozen', False): # Override dll search path. ctypes.windll.kernel32.SetDllDirectoryW('C:/Users/ngj/AppData/Local/Continuum/Anaconda3
2016-07-08 15:52:26 4309
原创 引用的特点和注意事项
引用,是变量的别名,就是你自己有个名字,比如李四,那你还有另外一个小名,叫小四,小四就是你的别名,别人叫你的时候你就会答应,那么李四和小四是同一个人,那么某个变量的引用是一样的,对该引用的操作就是对原变量的操作,本身不占用存储单元,也不是一个新的数据类型。(不能建立数组的引用)
2016-06-27 10:13:12 1566
原创 深拷贝和浅拷贝
拷贝构造函数是一种特殊的构造函数,函数的名称必须和类名称一致,它的唯一的一个参数是本类型的一个引用变量,该参数是const类型,不可变的。例如:类A的拷贝构造函数的形式为A(A& x)。以下三种情况会自动调用拷贝构造函数:1. 一个对象以值传递的方式传入函数体 2. 一个对象以值传递的方式从函数返回 3. 一个对象需要通过另外一个对象进行初始化(eg:A=B)如果在类中没有
2016-06-27 00:18:41 490
原创 Python中List二维数组
今天用List创建二维数组:s=[[0]*2]*3>>> s[[0, 0], [0, 0], [0, 0]]对s[1][1]加1时,发现整个第二列都被赋值,变成>>> s[1][1]+=1>>> s[[0, 1], [0, 1], [0, 1]]原因:list * n—>n shallow copies of list concatenate
2016-05-19 23:35:59 6123
转载 Python正则表达式指南
原文地址:http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html1. 正则表达式基础1.1. 简单介绍正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十分强大。得益于这一点,在提供了正则表达式的语言里,正
2016-05-15 20:52:50 610
转载 Python中dict用法
原文地址:https://www.douban.com/note/352634106/Python字典的构造函数有三个,dict()、dict(**args)、dict(mapping),其中第一个、第二个构造函数比较好理解也比较容易使用,而dict(mapping)这个构造函数的使用比较难理解。1 dict()构造函数可以返回一个空的字典In [7]: d = dict()
2016-05-14 18:10:16 804
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人