- 博客(441)
- 资源 (2)
- 收藏
- 关注
原创 shell 下 时间 的傻狍子
start_time = '20202020202020'st=${start_time :0:8}format=`date -d $st '+%Y-%m-%s'`dt=$(date --date="${format} -1 year" "+%Y-%m-%s %H:%M:%S")
2021-04-22 21:01:37
127
原创 数据中台相关情况
是否支持多机房组成一个global集群,目的当一个机房物理容量不可扩容时,是否可以支持多机房的存储计算? 当IAAS层ready没问题时,产品安装时间大约多久?后续集群扩容(可以按规模给定时间,如扩容增加大约10台机器需花费时间多久?)和产品升级花费时间多久? 支持spark3了吗?如果社区flink,spark,hbase,hadoop有大版本升级,大数据平台滞后多久跟随升级? 使用产品时报错无法完成预期任务,如果是产品测的问题,多久能得到反馈解决? 产品是否支持模块化销售:基本大数据底座,数据治
2021-04-01 10:08:50
114
原创 superset sql lab instance error <------ 暂时没找到解决方案
Unexpected ErrorInstance <Query at 0x267853b90f0> is not bound to a Session; attribute refresh operation cannot proceed (Background on this error at: http://sqlalche.me/e/13/bhk3)
2021-03-31 15:37:06
216
原创 spark3.0 特性测试整理
目前的测试效果性能较2.4.6 提高有20%spark 3.0 性能改进项--简化内容可以参考 https://www.cnblogs.com/xing901022/p/13381167.html :spark3.0 的 发布时间 --2020年6月大版本的更新注定有许多性能优化方面的新特性,其中整个版本升级改进中spark sql占 46% ,spark core占 16% spark作为当前批量数据分析引擎,在SQL方面的优化主要四个方向7个方面:1.开发交互方向: 新的...
2021-03-01 18:28:04
373
原创 数据仓库高级工程师面试(最基本的内容)--解答
如何建设数仓,如何构建主题域 缓慢变化维 几种处理方式 什么是维度建模,星型模型与雪花模型的区别 数仓的好处 分层的好处 怎么做数据质量,怎么保证及时性和准确性 什么是维度,什么是度量 如何数据治理? 三范式 数据仓库vs数据中台vs数据湖 做过实时数仓吗,讲一下 ----------------------- 注:新浪也考过 awk输出并求和python:...
2021-02-18 10:01:14
1276
3
原创 hive ,tez , spark sql 小文件合并
hdfs 下小文件是最致命的影响之一Hive 命令hive.merge.mapredfiles=true;hive.merge.mapfiles=truehive.merge.rcfile.block.level=truehive.merge.size.per.task=256000000hive.merge.smallfiles.avgsize=16000000tez 命令hive.merge.tezfiles=truespark 命令 :hive.merg...
2021-01-15 15:01:04
1154
原创 在执行Sparksql操作orc类型的表时抛出:java.lang.IndexOutOfBoundsException 或者 java.lang.NullPointerException
案例 (spark version 2.4.6):create tmp.table_Y_x_h partitioned by (key string) stored as orc ;insert overwrite table tmp.table partition(key='ur_my_love') select * from tablex where 1=2 ;会在hdfs key path 下生成一个000000_00 size 大小为 0 的空文件 ;在spark-s...
2021-01-12 14:21:46
740
原创 spark2.4.6 版本下创建orc临时表错误
create tmp.table stored as orc as select * from tmp.tablesx;insert into tmp.table select * from tmp.tablesy;会造成 hdfs 文件的后缀名称不一致 ,造成 spark 引擎下部分数据不能读取的错误 ;解决方法 :1. 上述的sql 通过 union all 进行合并2.增加参数强制统一hdfs文件格式 :spark.sql.hive.convertMetast...
2021-01-12 14:12:00
448
原创 spark error info
Unable to create executor due to uanble to register with external shuffle server due to timeout waiting for task
2020-12-08 14:20:07
269
原创 一个头疼的错误(Hadoop hive )
Error in query : org.apache.hadoop.hive.ql.metadata.HiveException:get partition :Value for key dt is null or empty ;Solution :
2020-11-26 16:29:47
761
1
原创 hadoop 统计系统文件占用空间统计语句
hadoop fs -du -h hdfshadoop fs -du -s -h hdfs://dim.db
2020-11-11 15:52:37
423
原创 大数据架构学习交流提高
大数据架构师 \ 专家 战略合作 希望参与 交流会人工智能架构师数据能力 规划 计划 数字货币 六位 老师 实时数据 + 结果BIHbase + 多维分析 查询 决策 风控 AI 建模等 current 统计 支付监管 反洗钱 等 博士 提供驻场等实施 : flink + kafkafusioninsdie人脸识别 ++++ 支付 案例 以及图像识别 Hbase + ES 黑科技江苏公安 跨域协同 公安部的 数据生命周期 准...
2020-11-02 10:09:48
258
原创 Spark 运行内存溢出:memoryOverhead
在做一个保密级别的项目中遇到的spark内存异常具体错误语句:Lost executor 10 on hadoop88:Container kill by yarn for exceeding memory limits.9 Gb of 9 Gb physical memory used .Consider boosting spark.yarn.executor.memoryOverhead or disabling yarn.nademanager.vmem-check-enabled be
2020-10-23 10:55:27
1694
原创 python 3.x 中 map ,sorted ,filter ,reduce 与lambda function 的混合使用案例
#python 中的几个内置函数使用学习,向潘石屹先生学习....def sq(x): return x*xprint(map(sq,[y for y in range(10)]))# map function # map() 会根据提供的函数对指定序列做映射。# 第一个参数 function 以参数序列中的每一个元素调用 function 函数,返回包含每次 function 函数返回值的新列表。# 语法 : map(function ,iterable,...) 可以接收多...
2020-09-22 17:21:37
141
原创 大数据基础、数据仓库以及数据中台和挖掘阶段性总结
【腾讯文档】大数据基础https://docs.qq.com/slide/DQXlvZHVUTGJQR3hE
2020-09-18 15:52:08
259
原创 Tez 跑一段sql报错,莫名其妙
错误图片:以上内容看的头晕目眩的:具体错误内容是没有发现,因为这个问题不总是出现,在调度跑的时候就会出现,发现错误后,重跑就没有问题了 ,很是奇怪的,看错误内容,大概是有两个方向,就是内存不够然后进程被container给kill 了 ,不给个错误提示,也是醉人,不吉利。查看上面日志的cmd:yarn logs -applicationId application_1544766080243_0018 大概能猜的可能就是两个方法避免这个错误了 :1)设置下dri...
2020-09-18 15:45:26
270
原创 loading data to table 分区非常的多 ,造成时间非常长
在贴源层大概有两年的数据 ,存在一个分区里面 ,在往odm 写入时候 按照交易时间进行重新分区 ,造成运行时间非常长,这个有什么解决方案呢 ?loading。。。。
2020-06-06 17:37:27
757
2
原创 hive kill command 和 Hadoop Job infomation 之间的时间间隔很大
hive kill command 和 Hadoop Job infomation for stage-19 number of mappers 之间的时间间隔很大超过三分钟 ,不知道什么原因
2020-06-04 14:19:12
389
原创 有一段sql
#!/bin/bash######################################################################################################################### Creater :# Creation Time :# Description :# Mod...
2020-03-10 23:21:57
222
原创 哈哈 一段sql 语句
set mapred.job.priority=NORMAL;set mapred.output.compress=true;set hive.exec.compress.output=true;SET hive.default.fileformat=Orc;set hive.exec.dynamic.partition=true;set hive.exec.dynamic.part...
2020-03-10 23:20:53
242
原创 hive 出现 unsupported subquery expression 错误
Failed , semanticException [error 10249] Unsupported subquery expression :Subquery expression refers to both parent and subquery expression and is not a valid join condition
2020-03-09 23:35:04
13747
1
原创 团建计划
方案一(密云汇源生态谷,96KM,营地烧烤,酒庄)地址:北京密云费用500左右周五晚上入住悠然星宿营地,晚上烧烤,住宿为小木屋,自然风光、游戏、采摘等营地介绍https://mp.weixin.qq.com/s/dNHTix0TsymVK0wVcKNaOw周六方案一:去爱斐堡国际酒庄,参观酒庄、品鉴红酒、葡萄长廊等费用:住宿225+周五晚烧烤12...
2020-02-12 13:01:12
1091
原创 供应链研发部和Y事业部 盘点
供应链研发部和Y事业部的同事们:大家好!为了全面提升供应链团队整体工作质量,提高产品、研发、测试各角色协同工作效率,确保研发团队最终交付结果(产品)对我们的客户产生显著价值,并帮助实现我们的愿景:成为行业供应链技术解决方案产品的领导者,大智能供应链团队于2018年10月9日启动了供应链质量提升项目,涉及供应链研发部和Y事业部等相关团队。此前,各团队已经从需求、流程、数据、算法、架构、产品及人...
2020-02-12 12:55:25
1211
原创 hive 解析 json json array
在大数据处理中经常遇到业务端发送json 数据到 table 里 的情况 ,这个需要数据开发工程师能够准备对json string 进行解析 ,并重新定义新表的结构 。在网络上看到很多网友提到 get_json_object ,json_tuple 的使用和案例 ,结合 替换和分组函数可以比较容易的对json 数据完成解析 。不久前我们遇到一个json 类似 格式如下 :{ hom...
2020-02-12 12:42:10
1558
原创 你可知道python 中for 和 else 可以连用
jh_joan_list =list()for x in range(10): jh_joan_list.append(x)else : jh_joan_list.append('done')print(jh_joan_list)# the result: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 'done']
2020-01-21 16:52:02
775
1
原创 ranking 排序图
#ranking 排序图 import numpy as npimport pandas as pd import matplotlib.pyplot as pltimport seaborn as snsimport matplotlib as mpl%matplotlib inlineX = [x for x in range(1,6)]Xy =[14,13,33,1...
2019-12-22 13:49:53
488
原创 python 偏差图
import syssys.version#deviation ## 偏差图 是单个特征中的所有值跟特定值之间的关系图 ,#反应的是所有值偏离特定值得距离#典型的偏差图:面积图,发散性条形图#1.发散条形图#如果你也想根据单个指标查看项目的变化情况,并且可视化此差异的顺序和数量,它有助于快速的区分#数据中的组的性能,非常直观import pandas as pd im...
2019-12-22 02:16:12
1380
原创 python 散点图
python的画图功能强大 ,为了加强对python的基础认识 ,通过对相关语法的了解 ,加深认识本期是python 三点图 scatterplot#d导入需要会的绘图库import numpy as npimport pandas as pd import matplotlib as mplimport matplotlib.pyplot as plt import seab...
2019-12-22 00:42:08
627
原创 Top 50 matplotlib Visualizations – The Master Plots (with full python code) 个人分析
SetupRun this once before the plot’s code. The individual charts, however, may redefine its own aesthetics.# !pip install brewer2mplimport numpy as npimport pandas as pdimport matplotlib as...
2019-12-21 17:59:23
2287
原创 2.决策树 -分类树
决策数的主要概念1.什么是决策树2.决策树构建的准备工作香浓熵 & 信息增益3.递归构建决策树ID3算法 C4.5 cart
2019-12-21 12:03:52
166
原创 sklearn & 机器学习实战
sklearn 机器学习 决策树 k-紧邻算法 随机森林 决策树 数据处理和特征工程 朴素贝叶斯 主成分分析pca与奇异值分解svd Logistic 回归 逻辑回归 支持向量机 聚类算法和k-means Adaboost svm ...
2019-12-21 11:29:42
210
原创 knn 最近邻 算法的思考 与 总结
算法功能 分类(核心功能),回归 算法类型 有监督学习,惰性学习(没有产生模型),距离类模型 数据输入 包含数据标签y,特征空间中至少包含K个训练样本 特征空间中各个特征的量纲需要统一,若不统一则需要进行归一化处理 自定义超参数k 模型输出 在knn分类中,输出是标签中的某个类别 在knn回归中,输出是对象的属性值...
2019-12-21 10:15:47
397
原创 SVR forecasts stock opening price
SVM-Regression The method of Support Vector Classification can be extended to solve regression problems. This method is called Support Vector Regression. The model produced by support ...
2019-12-20 09:28:21
186
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅