ronaldo-liu的博客

大数据BI的实践之路
私信 关注
ronaldo2018
码龄7年
  • 201,963
    被访问量
  • 42
    原创文章
  • 78,491
    作者排名
  • 31
    粉丝数量
  • 于 2014-07-15 加入CSDN
获得成就
  • 获得52次点赞
  • 内容获得16次评论
  • 获得240次收藏
荣誉勋章
TA的专栏
  • 数据分析
    1篇
  • 机器学习
    10篇
  • hive sql
    13篇
  • linux命令
    1篇
  • python
    11篇
  • spark
    1篇
  • java学习
    2篇
  • 感想
    1篇
  • android
    1篇
  • oracle BPM
    1篇
  • oracle PL/SQL
    7篇
  • EBS
    10篇
  • presto
    4篇
  • mysql
    1篇
  • 最近
  • 文章
  • 资源
  • 问答
  • 课程
  • 帖子
  • 收藏
  • 关注/订阅

presto web UI介绍

Presto Web UI 可以用来检查和监控Presto集群,以及运行的查询。他所提供的关于查询的详细信息可以更好的理解以及调整整个集群和单个查询。需要注意的是,Presto Web UI所展示的信息都来自于Presto系统表,关于Presto系统表之后文章中再补充,这里不再多说;当你进入Presto Web时,你将会看到如同1所示的界面:主要分为上下两部分,上面描述了集群信息,下面是查询列表;首页集群信息Running Queries当前在集群中正在执行的查询的个数。包.
转载
26阅读
0评论
0点赞
发布博客于 1 月前

日期转换(函数)--hive 和presto

一.timestamp 类型 转换为其他类型场景 presto用法 hive用法 转换成北京时区的string字符串,格式为y-m-d date_format(created_at AT TIME ZONE 'Asia/Shanghai','%Y-%m-%d') 如果需要到时分秒,可在%Y-%m-%d'基础上加格式 from_unixtime(unix_timestamp(from_utc_timestamp(`created_at`,'A..
原创
1039阅读
0评论
0点赞
发布博客于 7 月前

数据分析师的几层境界

一.业务方满意最基本的要求,让所有业务方满意二.业务方觉得你很吊第二层境界,业务方觉得你很吊三.业务方按着你的思维套路提需求第三层,通过不断的合作和赋能业务方,让业务方了解数据结构和数据分析的模式,可以站在系统化的角度提需求,并且目标和期望是在我们已有能力范围内的。四.业务方和你讨论解决方案业务方已对你专业能力非常认可,也对你非常信任。在举棋不定或...
原创
132阅读
0评论
0点赞
发布博客于 2 年前

replace into和insert on duplicate key比较

mysql有两种 插入新数据的方法replace into 和insert on duplicate keyreplace into:replace into 跟 insert 功能类似,不同点在于:replace into 首先尝试插入数据到表中,1. 如果发现表中已经有此行数据(根据主键或者唯一索引判断)则先删除此行数据,然后插入新的数据。 2. 否则,直接插入新数据。1.(根...
原创
201阅读
0评论
0点赞
发布博客于 2 年前

presto 提取json数组中的json对象

使用json_array_get函数,可以提取json数组中的指定位置,默认第一位的索引是0json_array_get(json对象, 0)
原创
6460阅读
0评论
0点赞
发布博客于 2 年前

Hive sql优化

hive sql 运行太慢,如何优化?经验不丰富的数据分析或者BI工程师往往上来就看sql,调整sql内容,其实不然。一.业务层面first of all, 优先了解sql反应的业务,先把业务梳理清晰,去除掉不必要的表,关联。这个只能泛泛而谈,但确是sql优化应该最先考虑的。在有一定业务经验后,根据实际情况进行优化。二.每张数据表的性能1.数据表的存储格式,存储硬盘(...
原创
218阅读
0评论
0点赞
发布博客于 2 年前

presto函数大全 中文版

Functions and Operators基于Presto 0.215版本的中文注释 函数大全,参考官方文档:https://prestodb.github.io/docs/0.215/functions.html6.1. 逻辑操作6.2. 比较函数和运算符6.3. 条件表达式6.4. Lambda 表达式6.5. 转换函数6.6. 数学函数和运算符6.7. 位运算函...
原创
42215阅读
1评论
9点赞
发布博客于 2 年前

HIVE和HBASE区别

HIVE和HBASE区别1. 两者分别是什么?Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能够在Haoop上批量的执行Hadoop。Apache...
转载
3618阅读
0评论
1点赞
发布博客于 2 年前

hive sql执行方式对比(tez,mapreduce,spark,storm)

执行方式 简介 优点 缺点 MapReduce 是一种离线计算框架,将一个算法抽象成Map和Reduce两个阶段进行处理,非常适合数据密集型计算 大数据量下优势明显 读写hdfs次数多;数据量不大时性能一般 Tez ...
原创
2149阅读
0评论
2点赞
发布博客于 2 年前

dbeaver常用快捷键

hot keyctrl + enter 执行sqlctrl + \ 执行sql,保留之前窗口结果ctrl + shift + ↑ 向上复制一行ctrl + shift + ↓ 向下复制一行ctrl + alt + F 对sql语句进行格式化,对于很长的sql语句很有用ctrl + d 删除当前行alt + ↑ 向上选定一条sql语句alt + ↓ 向下选定一条sql语句ctr...
原创
10650阅读
0评论
0点赞
发布博客于 2 年前

pip install cv2报错

代码中有import cv2 惯性思维使用pip install cv2,报错,需要安装 这个包opencv-python 执行:pip install opencv-python成功
原创
7122阅读
1评论
4点赞
发布博客于 2 年前

安装scrapy库报错Command "python setup.py egg_info" failed with error code 1 in /tmp/pip-build-6tq4pm2l/Tw

安装scrapy库报错Command "python setup.py egg_info" failed with error code 1 in /tmp/pip-build-6tq4pm2l/Twisted/百度的方法:python3 -m pip install --upgrade --force pip --userpip install setuptools==33.1.1...
原创
4915阅读
0评论
2点赞
发布博客于 2 年前

hive 动态分区参数设置

使用Hive动态分区需要注意设定以下参数:1.是否开启动态分区功能,默认false关闭。 默认值:falsehive.exec.dynamic.partition =false1使用动态分区时候,该参数必须设置成true;hive.exec.dynamic.partition =true12.动态分区的模式: 默认值:stricthive.exec.dynamic.pa...
原创
5234阅读
0评论
0点赞
发布博客于 3 年前

引用skearn报错ImportError: cannot import name 'cross_validation'

sklearn更新后执行下面的可能会报错from sklearn.cross_validation import train_test_split报错ImportError: cannot import name 'cross_validation'  解决方法:库路径变了改为:from sklearn.model_selection import KFoldf...
原创
5905阅读
0评论
5点赞
发布博客于 3 年前

Hive分区(静态分区+动态分区)

Hive分区的概念与传统关系型数据库分区不同。传统数据库的分区方式:就oracle而言,分区独立存在于段里,里面存储真实的数据,在数据进行插入的时候自动分配分区。Hive的分区方式:由于Hive实际是存储在HDFS上的抽象,Hive的一个分区名对应一个目录名,子分区名就是子目录名,并不是一个实际字段。 所以可以这样理解,当我们在插入数据的时候指定分区,其实就是新建一个目录或者子...
转载
172阅读
0评论
0点赞
发布博客于 3 年前

Hive中join的三种方式

一.common join common join也叫做shuffle join,reduce join操作。适用于两个table的大小相当,但是又不是很大的情况下使用。具体流程就是在map端进行数据的切分,一个block对应一个map操作,然后进行shuffle操作,把对应的block shuffle到reduce端去,再逐个进行联合。缺点:容易产生数据倾斜,大数据量下性能不好 ...
转载
440阅读
1评论
0点赞
发布博客于 3 年前

hive,spark sql优化

一.hive sql优化1.发生数据倾斜,如何解决?什么是数据倾斜?由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点1.1 原因1)、key分布不均匀2)、业务数据本身的特性3)、建表时考虑不周4)、某些SQL语句本身就有数据倾斜1.2 表现任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。因为其...
原创
1497阅读
0评论
1点赞
发布博客于 3 年前

Hive修改表名,列名,列注释,表注释,增加列,调整列顺序,属性名等操作

Alter Table 语句Hive修改表名,列名,列注释,表注释,增加列,调整列顺序,属性名等操作它是在Hive中用来修改的表。语法声明接受任意属性,我们希望在一个表中修改以下语法。  ALTER TABLE name RENAME TO new_name ALTER TABLE name ADD COLUMNS (col_spec[, col_spec ......
转载
1124阅读
0评论
0点赞
发布博客于 3 年前

Hive存储格式对比

Apache Hive支持Apache Hadoop中使用的几种熟悉的文件格式,如TextFile,RCFile,SequenceFile,AVRO,ORC和Parquet格式。Cloudera Impala也支持这些文件格式。 在建表时使用STORED AS (TextFile|RCFile|SequenceFile|AVRO|ORC|Parquet)来指定存储格式。TextFile每一行都...
转载
1001阅读
0评论
0点赞
发布博客于 3 年前

python 非线性规划(scipy.optimize.minimize)

一.背景:现在项目上有一个用python 实现非线性规划的需求。非线性规划可以简单分两种,目标函数为凸函数 or 非凸函数。凸函数的 非线性规划,比如fun=x^2+y^2+x*y,有很多常用的python库来完成,网上也有很多资料,比如CVXPY非凸函数的 非线性规划(求极值),从处理方法来说,可以尝试以下几种:1.纯数学方法,求导求极值;2.使用神经网络,深度学习来处理,可参考...
原创
81308阅读
12评论
19点赞
发布博客于 3 年前

hive 的几种存储格式

Hive文件存储格式1.textfiletextfile为默认格式存储方式:行存储磁盘开销大 数据解析开销大压缩的text文件 hive无法进行合并和拆分2.sequencefile二进制文件,以<key,value>的形式序列化到文件中存储方式:行存储可分割 压缩一般选择block压缩优势是文件和Hadoop api中的mapfile是相互兼容的。3.rcfile存储方式:数据按行分...
转载
437阅读
0评论
0点赞
发布博客于 3 年前

python pandas报错:Exception: cannot handle a non-unique multi-index!

对pandas进行索引查询时报错Exception: cannot handle a non-unique multi-index!df_profit[df_profit['item_no'].str.contains(item + '.+')==True][m]原因:索引里没有这个值,会报这个错,检查pandas数据中的索引是否 有要找的项...
原创
3022阅读
0评论
0点赞
发布博客于 3 年前

天池新人实战赛之[离线赛]尝试(四)

之前的特征值有10几个,有点少了。增加特征值到
原创
893阅读
0评论
0点赞
发布博客于 3 年前

pip install报错

报错信息:You are using pip version 9.0.3, however version 10.0.1 is available.You should consider upgrading via the 'pip install --upgrade pip' command.解决方法:这个不是报错。pip 版本低也照样可以执行pip3 install 操作。没影响...
原创
872阅读
0评论
0点赞
发布博客于 3 年前

linux常见命令

1.  du -s 显示目录占用的磁盘空间大小2.ps  -aux |grep 查看进程3.kill -9 pid   杀死进程4./usr/bin/sudo su  切换用户5. cp  文件  目标文件夹   复制文件到指定文件夹...
原创
62阅读
0评论
0点赞
发布博客于 3 年前

hive sql的一些特殊语法

 1.ORACLE SQL: decode    在hive SQL:    nexr_decodeoracle的 nvl     在hive sql: COALESCE2.array collect_set(col) Returns a set of objects with duplicate elements eliminatedcollect_set: 返回去重的元素数组。...
原创
2366阅读
0评论
2点赞
发布博客于 3 年前

天池新人实战赛之[离线赛]尝试(三)

接上面两篇文章,只提取10个特征,是远远不够的。看了一些参加S2比赛的博客总结,先通过一些强规则(SQL)来确定结果。获取前一日(12.18)添加了购物车,当天没有购买过并且在商品子集中的 U-I组合。SQL写法:--筛选出12.18添加进购物车的select  a.user_id,a.item_id   from (select  * from  vipfin.tianchi_fresh_...
原创
408阅读
0评论
0点赞
发布博客于 3 年前

机器学习特征值转换(使用spark.ml)

pyspark.ml.feature 下有很多处理特征的方法。在处理特征值时,有一个归化(缩放)的概念,将特征值转换到 量度统一的范围内。这里介绍几种方法:1.MinMaxScaler将数据缩放至给定的最小值与最大值之间,通常是0与1之间2.MaxAbsScaler最大的绝对值缩放至单位大小。但是它通过除以最大值将训练集缩放至[-1,1]。这意味着数据已经以0为中心或者是含有非常非常多0的稀疏数据...
原创
241阅读
0评论
0点赞
发布博客于 3 年前

使用spark.createDataFrame报错

spark_df = spark.createDataFrame(df)pandas df转换为spark df时报错Can not merge type <class 'pyspark.sql.types.LongType'> and <class 'pyspark.sql.types.StringType'> 原因:df中有空值,去掉空值,强转类型 即可df['item...
原创
5962阅读
0评论
4点赞
发布博客于 3 年前

反向传播算法学习

一.准备工作反向传播算法是神经网络中一个重要的过程。了解反向传播算法之前先来理解几个概念:1.全导 和偏导求导是数学计算中的一个计算方法,它的定义就是,当自变量的增量趋于零时,因变量的增量与自变量的增量之商的极限。在一个函数存在导数时,称这个函数可导或者可微分。可导的函数一定连续。不连续的函数一定不可导。全导数是对各个变量求偏导后叠加偏导数是只对其中一个变量求导数,物理几何意义是一个平面(平行于x...
原创
254阅读
0评论
0点赞
发布博客于 3 年前

天池新人实战赛之[离线赛]尝试(二)

上一篇文章已经将基本思路列出,现在已经根据第一篇文中的数据预处理方案处理出一个训练数据表训练数据11.22~11.27U-I集合行为数据对应的大数据表名: temp_fin.temp_tianchi_train1_data验证数据11.29~12.04U-I集合行为数据对应大数据表名:temp_fin.temp_tianchi_train2_data预测数据12.13~12.18U-I集合行为数据...
原创
949阅读
0评论
0点赞
发布博客于 3 年前

天池新人实战赛之[离线赛]尝试(一)

题目(https://tianchi.aliyun.com/getStart)就不贴了。经过一些百度的资料,可以将这个问题简化为:某个U-I组合在观察日是否有购买行为?(二分类问题)接下来分几个步骤来拆解整个过程:一.简单分析将两个数据表.tianchi_fresh_comp_train_item和tianchi_fresh_comp_train_user存入到数据库中,对应表名:vipfin.t...
原创
2479阅读
0评论
2点赞
发布博客于 3 年前

机器学习特征值转换(使用spark.ml)

pyspark.ml.feature 下有很多处理特征的方法。在处理特征值时,有一个归化(缩放)的概念,将特征值转换到 量度统一的范围内。这里介绍几种方法:1.MinMaxScaler将数据缩放至给定的最小值与最大值之间,通常是0与1之间2.MaxAbsScaler最大的绝对值缩放至单位大小。但是它通过除以最大值将训练集缩放至[-1,1]。这意味着数据已经以0为中心或者...
原创
153阅读
0评论
0点赞
发布博客于 3 年前

天池新人实战赛之[离线赛]尝试(二)

上一篇文章已经将基本思路列出,现在已经根据第一篇文中的数据预处理方案处理出一个训练数据表训练数据11.22~11.27U-I集合行为数据对应的大数据表名: temp_fin.temp_tianchi_train1_data验证数据11.29~12.04U-I集合行为数据对应大数据表名: 数据预处理思路:1.筛选一些异常的训练数据(只买不看的U-I组...
原创
201阅读
0评论
0点赞
发布博客于 3 年前

天池新人实战赛之[离线赛]尝试(一)

题目(https://tianchi.aliyun.com/getStart)就不贴了。经过一些百度的资料,可以将这个问题简化为:某个U-I组合在观察日是否有购买行为?(二分类问题)接下来分几个步骤来拆解整个过程:一.简单分析将两个数据表.tianchi_fresh_comp_train_item和tianchi_fresh_comp_train_user存入到数据库中,对应表...
原创
257阅读
0评论
0点赞
发布博客于 3 年前

使用spark.createDataFrame报错

spark_df = spark.createDataFrame(df)pandas df转换为spark df时报错Can not merge type <class 'pyspark.sql.types.LongType'> and <class 'pyspark.sql.types.StringType'> 原因:df中有空值,去掉空值,强转类型 即...
原创
727阅读
0评论
0点赞
发布博客于 3 年前

反向传播算法学习

一.准备工作反向传播算法是神经网络中一个重要的过程。了解反向传播算法之前先来理解几个概念:1.全导 和偏导求导是数学计算中的一个计算方法,它的定义就是,当自变量的增量趋于零时,因变量的增量与自变量的增量之商的极限。在一个函数存在导数时,称这个函数可导或者可微分。可导的函数一定连续。不连续的函数一定不可导。全导数是对各个变量求偏导后叠加偏导数是只对其中一个变量求导数,物理...
原创
102阅读
0评论
0点赞
发布博客于 3 年前

查看form中LOV对应的后台代码

--帮助->关于oracle应用产品获得sid值--如果你在这个界面没有看到会话sid值,去检查下你的FND:诊断这个配置文件的值是否为是.DECLARE  CURSOR cur_lov_sql(p_pre_sql_addr VARCHAR2) IS    SELECT t.sql_text      FROM v$sqltext_with_newlines t  ...
原创
121阅读
0评论
0点赞
发布博客于 5 年前

获取销售订单行对应的总成本

--获取销售订单行对应的总成本FUNCTION get_line_item_cost(p_inventory_item_id IN NUMBER,p_organization_id   IN NUMBER) RETURN VARCHAR2 ISl_period_id    NUMBER;l_cost_type_id NUMBER;l_total_cost   NUMBER;...
原创
238阅读
0评论
0点赞
发布博客于 5 年前

跟踪并发请求

-- 跟踪并发请求select request_id, argument_text, v.REQUESTED_BY, v.REQUESTOR, v.*  from apps.fnd_conc_req_summary_v v where 1 =1    and program_short_name = 'CUXTCREP'   -- and v.REQUEST_DATE &gt...
原创
151阅读
0评论
0点赞
发布博客于 5 年前

PLSQL中获取堆栈消息的方法

FUNCTION get_error_message RETURN VARCHAR2 IS    l_msg_index     NUMBER;    l_msg_data      VARCHAR2(2000);    l_error_message VARCHAR2(2000);  BEGIN    FOR i IN 1 .. fnd_msg_pub.count_msg...
原创
300阅读
1评论
0点赞
发布博客于 5 年前

重启EBS应用服务器和数据库

1) 先停掉应用服务[appltest@ol6-ap scripts]$ cd $ADMIN_SCRIPTS_HOME[appltest@ol6-ap scripts]$ adstpall.sh2)停数据库FTP到数据库服务器[oratest@ol6-db ~]$ sqlplus / as sysdbaSQL> shutdown immediate;  暴力方法...
原创
457阅读
0评论
0点赞
发布博客于 5 年前

form之间的跳转

从一个form A跳转到另外一个form  B,并查询对应的数据fnd_function.execute(function_name => 'CUXB32BPMYFBDT',                       open_flag     => 'Y',                       session_flag  => 'Y',       ...
原创
217阅读
0评论
0点赞
发布博客于 6 年前

物料单位折算API

inv_convert.inv_um_convert(item_id       => msib.inventory_item_id,                                                 PRECISION     => NULL,                                                 fr...
原创
444阅读
0评论
0点赞
发布博客于 6 年前

EBS配置文件&DEBUG调试

------------------- EBS中关于MO配置文件的 3个配置文件查看的先后顺序:MO:安全性配置文件  》 MO:业务实体 》   MO:默认业务实体 ----------------FND%DEBUG日志所设置的路径,必须为几个指定的值select value from v$parameter where name = 'utl_file_dir';...
原创
378阅读
0评论
0点赞
发布博客于 6 年前

获取帐套下OU的平衡段

SELECT bsvs.flex_segment_valueFROM gl_legal_entities_bsvs bsvs,hr_operating_units     hr WHERE 1 = 1AND SYSDATE BETWEEN nvl(bsvs.start_date, SYSDATE - 1) ANDnvl(bsvs.end_date, SYSDATE + 1)...
原创
105阅读
0评论
0点赞
发布博客于 6 年前

EBS 取AR事务处理界面行项目上的事务处理合计值

 路径:AR超级用户 -》事务处理=》事务处理 =》行项目 =》头上的 事务处理 合计    ARP_CTL_SUM_PKG.select_summary( p_customer_trx_id     =>34270,   p_line_type              =>'ALL',   p_amount_total          =>amou...
原创
199阅读
0评论
0点赞
发布博客于 6 年前

PLSQL 逐行累加

对SQL中已有字段进行逐行累加例如对下表中的credit_amount进行逐行累加SELECT t.credit_amount  from table t; 修改为:SELECT t.credit_amount ,SUM(t.credit_amount) OVER (ORDER BY t.credit_source_num) total_amout  --以credi...
原创
1514阅读
0评论
0点赞
发布博客于 6 年前

ORACLE BPM 学习总结

Oracle中间件开发之BPM学习总结content一 BPM的安装二 BPM的基本组件三 A SAMPLE   1.helloworld     2.证明信申请一 BMP的安装安装Oracle ADF/OSB/BPM/SOA开发环境的过程按照说明文档,主要安装的组建一共有七个部,分如下图所示:   具体的安装流程见:http://yiyiboy...
原创
293阅读
0评论
1点赞
发布博客于 7 年前

android线程及异步操作

         最近在看《Android Wireless Application Development Volume2》第一章,讲的主要是线程及异步操作,android中的主要UI线程,最好不要包括太耗时的操作,否则会让该线程阻塞,所以我们就需要将这些耗时的操作放在其他地方执行,而又与主要UI线程有一定关联。androidSDK提供了几种将操作从主UI线程移除的方法,这里主要介绍两种:1....
原创
56阅读
0评论
0点赞
发布博客于 8 年前

最近面试的一点感想

        最近忙着面试笔试各种实习offer,从面试之前,我的想法就是通过这些面试找到自己知识上的缺口,了解社会中的企业所需要的人才类型,然后在接下来的学习中继续加强自己各方面的能力。        参加了不少笔试面试还有电面之后,我发现企业所考察我的跟我之前认为的重点有一定的偏差。之前觉得出去实习,可能考察的是思维能力,创新能力之类的,不过笔试了几次之后发现,其实这些能力固然重要,但...
原创
42阅读
0评论
0点赞
发布博客于 8 年前

哈夫曼压缩——ronaldoLY

                                                       哈夫曼压缩项目总结    最近一个月都在搞哈夫曼压缩。现在来总结一下哈夫曼压缩     在写代码之前,你要清楚的知道哈夫曼压缩是要分很多步的,为了你能在写代码时能很好地知道接下来要做什么,现在这一步是为了什么,所以最好提前将哈夫曼压缩的步骤罗列清楚。       哈夫曼压...
原创
124阅读
0评论
0点赞
发布博客于 9 年前

关于Robot类运用到游戏中的一点想法

      前几天无意发现Robot类可以自动控制鼠标位置和点击的。而且隐约也看到有什么自动截屏,自动按下一个键,释放一个键。这样福音又来了。         你是否还在为游戏发不出连招,连不起boss而烦恼呢? 呵呵,用Robot类吧。 介个,自己写一个,不说复杂的网游,说个纯键盘操作的97拳皇吧。以前玩,打电脑都很困难啊,被虐的意识模糊。就随便想想。用一个Robot类,只用一个巴...
原创
137阅读
0评论
0点赞
发布博客于 9 年前