自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(460)
  • 资源 (18)
  • 论坛 (4)
  • 收藏
  • 关注

原创 presto与hive字符串常用操作(字符串截取、字符串拼接、字符串分割)

1、字符串截取substrpresto:substr(string, start, length) → varchar 如: select substr('1599319787151',1,10)功效:返回字符串A从下标start位置开始,长度为len的字符串substr(string, start) → varchar 如: select substr('1599319787151',1)功效:返回字符串A从下标start位置到结尾的字符串ps:对String来说,...

2021-07-24 15:07:18 23

原创 Hive常用优化方法

1.常用MapReduce作业配置参数可在客户端的mapred-site.xml中配置,作为MapReduce作业的缺省配置参数。也可以在作业提交时,个性化指定这些参数。 参数名称 缺省值 说明 mapreduce.job.name 作业名称 mapreduce.job.priority NORMAL 作业优先级 ..

2021-04-26 10:26:51 48

原创 jupyter notebook出现ImportError: DLL load failed: 找不到指定的程序

然后按照下面的方式来解决:把路径Anaconda3/Library/bin下面的文件libcrypto-1_1-x64.dll和libssl-1_1-x64.dll复制到路径Anaconda3/DLLs下,在运行该命令就可以了。

2021-04-22 14:06:38 249 1

原创 Container killed on request. Exit code is 143

原因:程序运行时所需内存 >memory。一般是因为处理数据量或者缓存的数据量较大,已有内存不足 并且内存分配速度 > GC回收速度导致。解决方案:增大memory、减少单个Executor的并发数(cores)、减少不必要的cache操作、尽量不要对比较大的数据做broadcast、尽量避免shuffle算子或者对程序逻辑/底层数据进行优化...

2021-04-14 14:38:05 169

原创 org.apache.spark.shuffle.FetchFailedException: Java heap space

原因:程序运行时所需内存 >memory。一般是因为处理数据量或者缓存的数据量较大,已有内存不足 并且内存分配速度 > GC回收速度导致。解决方案:增大memory、减少单个Executor的并发数(cores)、减少不必要的cache操作、尽量不要对比较大的数据做broadcast、尽量避免shuffle算子或者对程序逻辑/底层数据进行优化...

2021-04-14 14:37:17 37

原创 java.lang.OutOfMemoryError: Java heap space

原因:程序运行时所需内存 >memory。一般是因为处理数据量或者缓存的数据量较大,已有内存不足 并且内存分配速度 > GC回收速度导致。解决方案:增大memory、减少单个Executor的并发数(cores)、减少不必要的cache操作、尽量不要对比较大的数据做broadcast、尽量避免shuffle算子或者对程序逻辑/底层数据进行优化...

2021-04-14 14:36:20 56

原创 YarnAllocator:Container killed by YARN for exceeding memory limits. spark.yarn.executor.memoryOverhe

原因:运行时memoryOverhead+memory >MonitorMemory解决方法:通过-–confspark.sql.shuffle.partitions=XXX增大partitions个数;或增大executor.memory的大小,不超过(Max)MonitorMemory即可。若已经到max仍然报错,可以减少单个Executor的并发数(cores),增大Executor数量。...

2021-04-14 14:34:06 26

原创 presto常用sql函数(字符串操作、数学函数、日期操作、正则表达式、json、聚合函数、位运算)

字符串函数concat(string1,…,stringN)连接给定的字符串 length(string) 返回给定字符串的长度 lower(string) 返回字符串的小写格式 upper(string) 返回给定字符串的大写格式 lpad(string,size,padstring) 给定字符串的左填充 rpad(string,size,padstring) 给定字符串的右填充 ltrim(string) 从字符串中删除字符左侧空格 rtrim(string) 从字符串中删除字符右侧空

2021-04-13 15:10:54 151

原创 presto时间转换、时间加减、时间差

Hive中对应的日期操作见:https://blog.csdn.net/qq_21997625/article/details/111473520问题1:时间格式转换例子: 当前时间20200110 转化为2020-01-10--prestoselect (format_datetime(date_parse('20200110','%Y%m%d'),'yyyy-MM-dd')问题2: 时间的加减例子: 原时间为20200110 需先转化为标准日期形式再加减--presto.

2021-04-13 14:20:28 1301

原创 presto获取上月第一天和最后一天、当月第一天

SELECT concat(SUBSTR(sysdate(0), 1, 7), '-01'), --本月第一天 date_add('day', - 1, CAST(concat(SUBSTR(sysdate(0), 1, 7), '-01') AS DATE)), --上月最后一天 concat(SUBSTR(cast(date_add('day', - 1, CAST(concat(SUBSTR(sysdate(0), 1, 7), '-01') AS DATE)) as varchar.

2021-04-13 14:16:09 696

原创 hive解析json get_json_object

1,对于jsonArray(json数组),如person表的xjson字段有数据:[{"name":"王二狗","sex":"男","age":"25"},{"name":"李狗嗨","sex":"男","age":"47"}]取出第一个json对象,那么hive sql为:SELECT get_json_object(xjson,"$.[0]") FROM person;结果是: {"name":"王二狗","sex":"男","age":"25"}取出第一个json

2021-04-12 17:03:17 244

原创 hive读取jsonarray

下面语句直接可以识别hive中的json array类型get_json_object(orientation, "$.[0].wlRatio")下面语句可以将jsonarray一行转换为多行,然后进行处理或者遍历SELECT id, pcFROM app.table_name LATERAL VIEW explode(split(regexp_replace(regexp_replace(regexp_replace(orientation, '\\[', ''), '\\]'..

2021-04-12 16:56:44 114

原创 scala初始化hashmap

可以使用google的工具guava,这和hashset一样import com.google.common.collect.Setsval cid1wl5Set = Sets.newHashSet("1713", "652", "737", "9987", "6728")val cid1wl10Set = Sets.newHashSet("6144", "5169", "1316", "1319", "1320", "12218")val cid1wl15Set = Sets.newHashS

2021-04-12 16:49:14 75

转载 Guava新增集合类型

Guava新增集合类型Guava新增了一些JDK中没有的,但是被广泛使用到的新集合类型Multiset SortedMultiset MultiMap BiMap Table ClassToInstanceMap RangeSetMultisetMultiset和Set的区别就是可以保存多个相同的对象。Multiset占据了List和Set之间的一个灰色地带:允许重复,但是不保证顺序。常见使用场景:Multiset有一个有用的功能,就是跟踪每种对象的数量,所以你可以用来进行数字

2021-04-12 16:46:57 22

转载 Guava工具类

强大的集合工具类Guava提供了很多类似java.util.Collections的静态工具类Guava中工具类与集合的对应关系如下:集合接口 来自于JDK/Guava 对应的Guava工具类 Collection JDK Collections2 List JDK Lists Set JDK Sets SortedSet JDK Sets Map JDK Maps SortedMap JDK

2021-04-12 16:45:22 26

原创 spark dataframe过滤查询filter

filter过滤条件直接写sql的条件就行ordDF.filter("pin_ct <= 5 AND ratio > 0.6 AND adowner_ct <= 5").orderBy(desc("ratio"))

2021-03-17 16:09:28 317

原创 spark dataframe降序排序

package com.dkl.leanring.spark.dfimport org.apache.spark.sql.SparkSessionobject DfSortDesc { def main(args: Array[String]): Unit = { val spark = SparkSession.builder().appName("DfSortDesc").master("local").getOrCreate() val data = Array((7,.

2021-03-17 16:06:51 246

原创 Hive获取上月第一天和最后一天

SELECT concat(SUBSTR(DATE_SUB(FROM_UNIXTIME(UNIX_TIMESTAMP()),DAY(FROM_UNIXTIME(UNIX_TIMESTAMP()))),1,7) ,'-01'), DATE_SUB(FROM_UNIXTIME(UNIX_TIMESTAMP()),DAY(FROM_UNIXTIME(UNIX_TIMESTAMP())))

2021-03-10 14:32:16 832

原创 安装automl包h2o

pip install requestspip install tabulatepip install scikit-learnpip install -f http://h2o-release.s3.amazonaws.com/h2o/latest_stable_Py.html h2o

2021-03-10 10:06:02 47

转载 Idea刷leetcode插件

1.安装在 IDEA(2019)的 setting 的 Plugins 的 Marketplace 中搜索 leetcode,即可以找到该插件,安装完成了,重启即可728 x 509 1015 x 7092.配置1、重启完成后,第一次使用的时候,需要一些基本的配制,在 setting 中的 Tools 中可以找到该插件工具,为 leetcode plugin,在里面,可以选择访问的为国际的 LeetCode 还是国内的,以及何种语言,同时,输入自己账户名(LoginName)和密码(Pa

2021-03-08 09:25:09 253

原创 java.lang.StackOverflowError

使用maven打包项目的时候,报了错误:[ERROR] error: java.lang.StackOverflowError[INFO] at scala.tools.nsc.typechecker.Typers$Typer.typed(Typers.scala:5365)[INFO] at scala.tools.nsc.typechecker.Typers$Typer.typedQualifier(Typers.scala:5472)[INFO] at scala.tools.nsc

2021-02-04 10:42:44 200 3

转载 hive与presto时间转换对比

文章转自:https://zhuanlan.zhihu.com/p/164645100问题1:时间格式转换例子: 当前时间20200110 转化为2020-01-10--输出 2020-01-10--hiveselect to_date(from_unixtime(UNIX_TIMESTAMP('20200110','yyyyMMdd')));--prestoselect (format_datetime(date_parse('20200110','%Y%m%d'),'yyyy-M

2020-12-21 14:00:06 645

原创 python获取前n月第一天和最后一天

import datetime#获取前n月第一天和最后一天,n大于等于1def getNMonthBefore(date, n): month = date.month year = date.year for i in range(n-1): if month == 1: year -= 1 month = 12 else: month -= 1 last_day .

2020-12-14 20:05:19 213

原创 python获取前n周第一天和最后一天

import datetimetoday = datetime.datetime.today().date()#获取前n个自然周第一天和最后一天def getNWeeksBefore(today,n): ywd = datetime.datetime.now().isocalendar() #(year,week,周几) next_week_start = today + datetime.timedelta(days=today.weekday() - 6-ywd[2] - 7.

2020-12-14 20:03:00 248

原创 spark submit参数详解

spark-submit 详细参数说明参数名 参数说明 --master master 的地址,提交任务到哪里执行,例如 spark://host:port, yarn, local --deploy-mode 在本地 (client) 启动 driver 或在 cluster 上启动,默认是 client --class 应用程序的主类,仅针对 java 或 scala 应用 --name 应用程序的名称 --jars 用逗号...

2020-11-18 14:05:32 254

原创 Scala查看变量类型

使用.getClass.getSimpleName查看println(1.getClass.getSimpleName)

2020-11-16 13:47:40 484

原创 scala退出spark命令行命令

:quit

2020-10-21 08:53:43 477

原创 Scala日期操作、获取当前时间、获取前一天时间、获取两日期时间差、获取两日期间所有日期

获取当前时间var dateFormat: SimpleDateFormat = new SimpleDateFormat("yyyy-MM-dd")var cal: Calendar = Calendar.getInstance()val nowday = dateFormat.format(cal.getTime())println(nowday)获取前1天日期val date = "2020-09-13"val myformat = new SimpleDateFormat("

2020-10-19 14:47:09 1771

原创 org.apache.spark.SparkException: Failed to execute user defined function($anonfun$11: (vector) => ve

在spark执行时出现rg.apache.spark.SparkException: Failed to execute user defined function($anonfun$11: (vector) => vector)可能是因为在使用VectorAssemlber合并特征时,如果具有矢量和原始特征,则无法合并它们。然后检查特征中的Indexer (StringIndexer or VectorIndexer),要保证训练集和验证级的都可用。详情可参考https://s..

2020-10-14 09:29:43 905

原创 scala打印HashMap

scala中使用Java的HashMap,如果要打印HashMap时,要加上一句话,就可以遍历HashMap了import scala.collection.JavaConversions._val cMap= new util.HashMap[Long,Array[Double]]()cidMap.foreach{ s=> println(s._1,s._2.foreach(println)) }...

2020-10-14 09:24:24 291

原创 python三引号嵌套双引号执行结果不对

当python使用三引号嵌套双引号时需要转义,不然可能出现一些意想不到的情况,比如sql="""select * from table where GET_JSON_OBJECT(regexp_replace(regexp_replace(param, '2:', '"2":'), '4:', '"4":'), '$.XXX') IN(1)"""ht.exec_sql(sql)当使用pyspark执行上面语句时不会报错,但是结果总是不对,应该在双引号那里加上两个反斜杠转义sql="""

2020-10-14 09:20:39 399

原创 spark dataframe出现NaN的情况

一般如果计算时,分母为0会出现NaN另一种计算时如果有元素为NaN,那么计算结果也是NaN

2020-10-14 09:14:36 403

转载 什么时候需要onehot编码?什么时候需要特征归一化?

一、问题由来最近在做ctr预估的实验时,还没思考过为何数据处理的时候要先进行one-hot编码,于是整理学习如下:在很多机器学习任务如ctr预估任务中,特征不全是连续值,而有可能是分类值。如下: 分类变量(定量特征)与连续变量(定性特征)。我们训练模型的变量,一般分为两种形式。以广告收入增长率为例,如果取值为0-1之间任意数,则此时变量为连续变量。如果把增长率进行分段处理,表示成如下形式:[0,0.3],(0.3,0.6],(0.6,1],那么此时变量为分类变量。...

2020-10-09 10:05:25 1076

原创 XGBoost$.ml$dmlc$xgboost4j$scala$spark$XGBoost$$postTrackerReturnProcessing(XGBoost.scala:406)

报错信息: ERROR ApplicationMaster: User class threw exception: ml.dmlc.xgboost4j.java.XGBoostError: XGBoostModel training failedml.dmlc.xgboost4j.java.XGBoostError: XGBoostModel training failed at ml.dmlc.xgboost4j.scala.spark.XGBoost$.ml$dmlc$xgboost4j$.

2020-09-29 15:08:51 271

原创 搜索推荐广告三者异同

搜索和推荐是AI算法最常见的两个应用场景,在技术上有相通的地方。这里提到广告,主要考虑很多没做过广告业务的同学不清楚为什么广告和搜索、推荐会有关系,所以做下解释。 搜索:有明确的搜索意图,搜索出来的结果和用户的搜索词相关。 推荐:不具有目的性,依赖用户的历史行为和画像数据进行个性化推荐。 广告:借助搜索和推荐技术实现广告的精准投放,可以将广告理解成搜索推荐的一种应用场景,技术方案更复杂,涉及到智能预算控制、广告竞价等。 ...

2020-09-29 08:57:06 491 1

原创 Presto位运算/与或非

Presto 提供了如下几种位运算函数: 函数 语法 说明 bit_count bit_count(x, bits) → bigint 返回 x 的补码中置 1 的位数 bitwise_and bitwise_and(x, y) → bigint 位与函数 bitwise_not bitwise_not(x) → bigint 取非操作 bitwise_or bitwise_or(x, y) → bigint 位或函数 .

2020-09-23 17:14:54 546

原创 Caused by: java.lang.OutOfMemoryError: Java heap space

遇到这种错误,百度各种方法设置堆栈大小无效,在pom里面加入就好了<jvmArgs> <jvmArg>-Xmx512m</jvmArg></jvmArgs>

2020-08-26 13:55:30 336 1

原创 Effictive Scala

内容来自:http://twitter.github.io/effectivescala/index-cn.htmlTable of Contents序言 格式化:空格,命名,Imports,花括号,模式匹配,注释 类型和泛型:返回类型注解(annotation),变型,类型别名,隐式转换 集合:层级,集合的使用,风格,性能,Java集合 并发:Future,集合 控制结构:递归,返回(Return),for循环和for推导,要求require和断...

2020-08-17 16:24:38 168

转载 Java集合List,Set,Map详解

转自:https://blog.csdn.net/zhangqunshuai/article/details/80660974概述:List , Set, Map都是接口,前两个继承至Collection接口,Map为独立接口 Set下有HashSet,LinkedHashSet,TreeSet List下有ArrayList,Vector,LinkedList Map下有Hashtable,LinkedHashMap,HashMap,TreeMap Collection接口下还有个Queu

2020-08-17 16:19:00 81

转载 Java集合List用法总结

转自:https://www.jianshu.com/p/25aa92f8d681Java集合作为一个Developer,Java集合类是我们在工作中运用最多的、最频繁的类。相比于数组(Array)来说,集合类的长度可变,更加适合于现代开发需求;Java集合就像一个容器,可以存储任何类型的数据,也可以结合泛型来存储具体的类型对象。在程序运行时,Java集合可以动态的进行扩展,随着元素的增加而扩大。在Java中,集合类通常存在于java.util包中。Java集合主要由2大体系构成,分别是Co

2020-08-17 16:04:08 1197

传智播客python课件

传智播客黑马python东哥主讲,这里是代码和课件。视频见:https://www.bilibili.com/video/av36851082/?p=129

2019-01-26

陈天奇xgboost论文+ppt+gdbt

陈天奇 xgboost论文,xgboost ppt 详细讲解,以及gdbt论文

2018-10-08

魏秀参CNN book trick深度学习调参技巧

魏秀参CNN book, 以及cnn trick。深度学习书和调参技巧ppt

2018-10-08

OpenCV with Python By Example.pdf

OpenCV with Python By Example.pdf 带书签无水印。这本书用很多例子教你学opencv,很棒

2019-06-01

MFC教学楼管理系统

MFC管理系统基于网络编程客户端服务器和数据库

2015-12-28

斯坦福cs234强化学习ppt教程reinforcement learning

斯坦福大学stanford cs234强化学习ppt教程reinforcement learning

2018-10-10

machine learning yearning Andrew Ng

machine learning yearning是吴恩达新书,本书含有58章

2018-09-30

David Silver强化学习课件ppt

David Silver强化学习课程文件Lecture 1: Introduction to Reinforcement Learning Lecture 2: Markov Decision Processes Lecture 3: Planning by Dynamic Programming Lecture 4: Model-Free Prediction Lecture 5: Model-Free Control Lecture 6: Value Function Approximation Lecture 7: Policy Gradient Methods Lecture 8: Integrating Learning and Planning Lecture 9: Exploration and Exploitation Lecture 10: Case Study: RL in Classic Games

2020-06-14

深度学习优化算法大全

深度学习优化算法,3种梯度下降方法,多种梯度下降优化算法(动量法,Nesterov,Adagrad,Adadelta,RMSprop,Adam等优化器),算法可视化及优化器选择,优化SGD

2018-10-08

迁移学习教程,Transfer learning介绍,TL调查

迁移学习教程-中科院王晋东,Transfer learning介绍-杨强,Transfer Learning survey-杨强

2018-10-08

OpenCV-3-x-with-Python-By-Example-master.zip

OpenCV 3.x with Python By Example(2nd).pdf code这本书对应的代码

2019-05-31

面向对象UML教学楼管理系统

面向对象UML建模教学楼管理系统,详细文档和各种图用例图类图时序图状态图组件图配置图各种图

2015-12-28

OpenCV-with-Python-By-Example-master.zip

OpenCV with Python By Example这本书对应的代码。非常好的入门教程

2019-05-31

Hands On Machine Learning with Scikit-Learn and TensorFlow20173

Hands On Machine Learning with Scikit-Learn and TensorFlow20173 通过最近的一系列突破,深度学习推动了整个机器学习领域。 现在,即使对这项技术几乎一无所知的程序员也可以使用简单有效的工具来实现能够从数据中学习的程序。 这本实用的书向你展示了如何。 通过使用具体示例,最小理论和两个可用于生产的Python框架 - scikit-learn和TensorFlow-authorAurélienGéron帮助您直观地了解构建智能系统的概念和工具。 您将学习一系列技术,从简单的线性回归开始,逐步深入到神经网络。 通过每章的练习来帮助您应用所学知识,您所需要的只是编程经验才能开始。

2018-07-03

Deep Learning for Computer Vision with Python123

Deep Learning for Computer Vision with Python123, 作者Dr. Adrian Rosebrock. 总共三本, 分别为starter bundle, Practitioner Bundle, ImageNet Bundle

2018-09-18

OpenCV 3.x with Python By Example 2nd .txt

OpenCV 3.x with Python By Example(2nd).pdf 带书签无水印。这本书用很多实际场景的例子教你学opencv。文件太大,这是链接

2019-06-01

强化学习Reinforcement learning:An introduction第二版

强化学习Reinforcement learning:An introduction第二版

2018-10-16

Deep Learning for Computer Vision by Dr. Stephen Moore

Deep Learning for Computer Vision by Dr. Stephen Moore. Expert techniques to train advanced neural networks using TensorFlow and Keras

2018-09-18

别说话写代码的留言板

发表于 2020-01-02 最后回复 2020-01-02

C语言中数组这样的写法为什么

发表于 2015-12-24 最后回复 2015-12-25

vc中对话框添加菜单项ID总是提示没有定义

发表于 2015-12-20 最后回复 2015-12-21

求解惑,大二软件学生,

发表于 2014-11-26 最后回复 2015-03-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除