自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(441)
  • 资源 (2)
  • 收藏
  • 关注

原创 shell 下 时间 的傻狍子

start_time = '20202020202020'st=${start_time :0:8}format=`date -d $st '+%Y-%m-%s'`dt=$(date --date="${format} -1 year" "+%Y-%m-%s %H:%M:%S")

2021-04-22 21:01:37 127

原创 数据中台相关情况

是否支持多机房组成一个global集群,目的当一个机房物理容量不可扩容时,是否可以支持多机房的存储计算? 当IAAS层ready没问题时,产品安装时间大约多久?后续集群扩容(可以按规模给定时间,如扩容增加大约10台机器需花费时间多久?)和产品升级花费时间多久? 支持spark3了吗?如果社区flink,spark,hbase,hadoop有大版本升级,大数据平台滞后多久跟随升级? 使用产品时报错无法完成预期任务,如果是产品测的问题,多久能得到反馈解决? 产品是否支持模块化销售:基本大数据底座,数据治

2021-04-01 10:08:50 114

原创 superset sql lab instance error <------ 暂时没找到解决方案

Unexpected ErrorInstance <Query at 0x267853b90f0> is not bound to a Session; attribute refresh operation cannot proceed (Background on this error at: http://sqlalche.me/e/13/bhk3)

2021-03-31 15:37:06 216

原创 spark3.0 特性测试整理

目前的测试效果性能较2.4.6 提高有20%spark 3.0 性能改进项--简化内容可以参考 https://www.cnblogs.com/xing901022/p/13381167.html :spark3.0 的 发布时间 --2020年6月大版本的更新注定有许多性能优化方面的新特性,其中整个版本升级改进中spark sql占 46% ,spark core占 16% spark作为当前批量数据分析引擎,在SQL方面的优化主要四个方向7个方面:1.开发交互方向: 新的...

2021-03-01 18:28:04 373

原创 数据仓库高级工程师面试(最基本的内容)--解答

如何建设数仓,如何构建主题域 缓慢变化维 几种处理方式 什么是维度建模,星型模型与雪花模型的区别 数仓的好处 分层的好处 怎么做数据质量,怎么保证及时性和准确性 什么是维度,什么是度量 如何数据治理? 三范式 数据仓库vs数据中台vs数据湖 做过实时数仓吗,讲一下 ----------------------- 注:新浪也考过 awk输出并求和python:...

2021-02-18 10:01:14 1276 3

原创 hive ,tez , spark sql 小文件合并

hdfs 下小文件是最致命的影响之一Hive 命令hive.merge.mapredfiles=true;hive.merge.mapfiles=truehive.merge.rcfile.block.level=truehive.merge.size.per.task=256000000hive.merge.smallfiles.avgsize=16000000tez 命令hive.merge.tezfiles=truespark 命令 :hive.merg...

2021-01-15 15:01:04 1154

原创 在执行Sparksql操作orc类型的表时抛出:java.lang.IndexOutOfBoundsException 或者 java.lang.NullPointerException

案例 (spark version 2.4.6):create tmp.table_Y_x_h partitioned by (key string) stored as orc ;insert overwrite table tmp.table partition(key='ur_my_love') select * from tablex where 1=2 ;会在hdfs key path 下生成一个000000_00 size 大小为 0 的空文件 ;在spark-s...

2021-01-12 14:21:46 740

原创 spark2.4.6 版本下创建orc临时表错误

create tmp.table stored as orc as select * from tmp.tablesx;insert into tmp.table select * from tmp.tablesy;会造成 hdfs 文件的后缀名称不一致 ,造成 spark 引擎下部分数据不能读取的错误 ;解决方法 :1. 上述的sql 通过 union all 进行合并2.增加参数强制统一hdfs文件格式 :spark.sql.hive.convertMetast...

2021-01-12 14:12:00 448

原创 clickHouse 是什么一个神器

ck 是用于做olap 数据分析的列式数据库管理系统核心理论命令系统架构设计数据结构引擎系统

2020-12-17 17:16:46 306 1

原创 Kubenetes 与 hadoop 的关系是怎样的

Kubenetes 与 hadoop 的关系是怎样的

2020-12-16 20:00:10 445

原创 联邦学习在机器学习中的应用是怎么一会儿事

联邦学习在机器学习中的应用是怎么一会儿事

2020-12-15 15:57:31 221

原创 Kerberos 在数据仓库集中的应用是怎们一会儿事

Kerberos 在数据仓库集中的应用是怎们一会儿事

2020-12-15 15:55:55 111

原创 数据仓库下的联邦架构是怎么实现的

数据仓库下的联邦架构是怎么实现的

2020-12-15 15:53:33 335

原创 flink 下的流批一体是怎么一会儿事情

flink 下的流批一体是怎么一会儿事情

2020-12-15 15:51:09 371

原创 spark error info

Unable to create executor due to uanble to register with external shuffle server due to timeout waiting for task

2020-12-08 14:20:07 269

原创 一个头疼的错误(Hadoop hive )

Error in query : org.apache.hadoop.hive.ql.metadata.HiveException:get partition :Value for key dt is null or empty ;Solution :

2020-11-26 16:29:47 761 1

原创 hadoop 统计系统文件占用空间统计语句

hadoop fs -du -h hdfshadoop fs -du -s -h hdfs://dim.db

2020-11-11 15:52:37 423

原创 大数据架构学习交流提高

大数据架构师 \ 专家 战略合作 希望参与 交流会人工智能架构师数据能力 规划 计划 数字货币 六位 老师 实时数据 + 结果BIHbase + 多维分析 查询 决策 风控 AI 建模等 current 统计 支付监管 反洗钱 等 博士 提供驻场等实施 : flink + kafkafusioninsdie人脸识别 ++++ 支付 案例 以及图像识别 Hbase + ES 黑科技江苏公安 跨域协同 公安部的 数据生命周期 准...

2020-11-02 10:09:48 258

原创 Spark 运行内存溢出:memoryOverhead

在做一个保密级别的项目中遇到的spark内存异常具体错误语句:Lost executor 10 on hadoop88:Container kill by yarn for exceeding memory limits.9 Gb of 9 Gb physical memory used .Consider boosting spark.yarn.executor.memoryOverhead or disabling yarn.nademanager.vmem-check-enabled be

2020-10-23 10:55:27 1694

原创 python 3.x 中 map ,sorted ,filter ,reduce 与lambda function 的混合使用案例

#python 中的几个内置函数使用学习,向潘石屹先生学习....def sq(x): return x*xprint(map(sq,[y for y in range(10)]))# map function # map() 会根据提供的函数对指定序列做映射。# 第一个参数 function 以参数序列中的每一个元素调用 function 函数,返回包含每次 function 函数返回值的新列表。# 语法 : map(function ,iterable,...) 可以接收多...

2020-09-22 17:21:37 141

原创 大数据基础、数据仓库以及数据中台和挖掘阶段性总结

【腾讯文档】大数据基础https://docs.qq.com/slide/DQXlvZHVUTGJQR3hE

2020-09-18 15:52:08 259

原创 Tez 跑一段sql报错,莫名其妙

错误图片:以上内容看的头晕目眩的:具体错误内容是没有发现,因为这个问题不总是出现,在调度跑的时候就会出现,发现错误后,重跑就没有问题了 ,很是奇怪的,看错误内容,大概是有两个方向,就是内存不够然后进程被container给kill 了 ,不给个错误提示,也是醉人,不吉利。查看上面日志的cmd:yarn logs -applicationId application_1544766080243_0018 大概能猜的可能就是两个方法避免这个错误了 :1)设置下dri...

2020-09-18 15:45:26 270

原创 loading data to table 分区非常的多 ,造成时间非常长

在贴源层大概有两年的数据 ,存在一个分区里面 ,在往odm 写入时候 按照交易时间进行重新分区 ,造成运行时间非常长,这个有什么解决方案呢 ?loading。。。。

2020-06-06 17:37:27 757 2

原创 hive kill command 和 Hadoop Job infomation 之间的时间间隔很大

hive kill command 和 Hadoop Job infomation for stage-19 number of mappers 之间的时间间隔很大超过三分钟 ,不知道什么原因

2020-06-04 14:19:12 389

原创 hive decode gb18030 to utf-8

How can i hive decode gb18030 to utf-8??

2020-03-12 15:24:04 586

原创 有一段sql

#!/bin/bash######################################################################################################################### Creater :# Creation Time :# Description :# Mod...

2020-03-10 23:21:57 222

原创 哈哈 一段sql 语句

set mapred.job.priority=NORMAL;set mapred.output.compress=true;set hive.exec.compress.output=true;SET hive.default.fileformat=Orc;set hive.exec.dynamic.partition=true;set hive.exec.dynamic.part...

2020-03-10 23:20:53 242

原创 hive 出现 unsupported subquery expression 错误

Failed , semanticException [error 10249] Unsupported subquery expression :Subquery expression refers to both parent and subquery expression and is not a valid join condition

2020-03-09 23:35:04 13747 1

原创 团建计划

方案一(密云汇源生态谷,96KM,营地烧烤,酒庄)地址:北京密云费用500左右周五晚上入住悠然星宿营地,晚上烧烤,住宿为小木屋,自然风光、游戏、采摘等营地介绍https://mp.weixin.qq.com/s/dNHTix0TsymVK0wVcKNaOw周六方案一:去爱斐堡国际酒庄,参观酒庄、品鉴红酒、葡萄长廊等费用:住宿225+周五晚烧烤12...

2020-02-12 13:01:12 1091

原创 供应链研发部和Y事业部 盘点

供应链研发部和Y事业部的同事们:大家好!为了全面提升供应链团队整体工作质量,提高产品、研发、测试各角色协同工作效率,确保研发团队最终交付结果(产品)对我们的客户产生显著价值,并帮助实现我们的愿景:成为行业供应链技术解决方案产品的领导者,大智能供应链团队于2018年10月9日启动了供应链质量提升项目,涉及供应链研发部和Y事业部等相关团队。此前,各团队已经从需求、流程、数据、算法、架构、产品及人...

2020-02-12 12:55:25 1211

原创 hive 解析 json json array

在大数据处理中经常遇到业务端发送json 数据到 table 里 的情况 ,这个需要数据开发工程师能够准备对json string 进行解析 ,并重新定义新表的结构 。在网络上看到很多网友提到 get_json_object ,json_tuple 的使用和案例 ,结合 替换和分组函数可以比较容易的对json 数据完成解析 。不久前我们遇到一个json 类似 格式如下 :{ hom...

2020-02-12 12:42:10 1558

原创 你可知道python 中for 和 else 可以连用

jh_joan_list =list()for x in range(10): jh_joan_list.append(x)else : jh_joan_list.append('done')print(jh_joan_list)# the result: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 'done']

2020-01-21 16:52:02 775 1

原创 ranking 排序图

#ranking 排序图 import numpy as npimport pandas as pd import matplotlib.pyplot as pltimport seaborn as snsimport matplotlib as mpl%matplotlib inlineX = [x for x in range(1,6)]Xy =[14,13,33,1...

2019-12-22 13:49:53 488

原创 python 偏差图

import syssys.version#deviation ## 偏差图 是单个特征中的所有值跟特定值之间的关系图 ,#反应的是所有值偏离特定值得距离#典型的偏差图:面积图,发散性条形图#1.发散条形图#如果你也想根据单个指标查看项目的变化情况,并且可视化此差异的顺序和数量,它有助于快速的区分#数据中的组的性能,非常直观import pandas as pd im...

2019-12-22 02:16:12 1380

原创 python 散点图

python的画图功能强大 ,为了加强对python的基础认识 ,通过对相关语法的了解 ,加深认识本期是python 三点图 scatterplot#d导入需要会的绘图库import numpy as npimport pandas as pd import matplotlib as mplimport matplotlib.pyplot as plt import seab...

2019-12-22 00:42:08 627

原创 Top 50 matplotlib Visualizations – The Master Plots (with full python code) 个人分析

SetupRun this once before the plot’s code. The individual charts, however, may redefine its own aesthetics.# !pip install brewer2mplimport numpy as npimport pandas as pdimport matplotlib as...

2019-12-21 17:59:23 2287

原创 2.决策树 -分类树

决策数的主要概念1.什么是决策树2.决策树构建的准备工作香浓熵 & 信息增益3.递归构建决策树ID3算法 C4.5 cart

2019-12-21 12:03:52 166

原创 sklearn & 机器学习实战

sklearn 机器学习 决策树 k-紧邻算法 随机森林 决策树 数据处理和特征工程 朴素贝叶斯 主成分分析pca与奇异值分解svd Logistic 回归 逻辑回归 支持向量机 聚类算法和k-means Adaboost svm ...

2019-12-21 11:29:42 210

原创 knn 最近邻 算法的思考 与 总结

算法功能 分类(核心功能),回归 算法类型 有监督学习,惰性学习(没有产生模型),距离类模型 数据输入 包含数据标签y,特征空间中至少包含K个训练样本 特征空间中各个特征的量纲需要统一,若不统一则需要进行归一化处理 自定义超参数k 模型输出 在knn分类中,输出是标签中的某个类别 在knn回归中,输出是对象的属性值...

2019-12-21 10:15:47 397

原创 SVR forecasts stock opening price

SVM-Regression The method of Support Vector Classification can be extended to solve regression problems. This method is called Support Vector Regression. The model produced by support ...

2019-12-20 09:28:21 186

etl 数据加载

etl 数据加载etl 数据加载etl 数据加载etl 数据加载

2011-11-10

数据库

数据库

2011-11-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除