种豆大叔
码龄8年
关注
提问 私信
  • 博客:111,478
    动态:6
    111,484
    总访问量
  • 29
    原创
  • 1,096,823
    排名
  • 26
    粉丝
  • 0
    铁粉

个人简介:种豆南山下,草稀豆苗盛

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2016-08-20
博客简介:

qq_35921007的博客

查看详细资料
个人成就
  • 获得25次点赞
  • 内容获得37次评论
  • 获得215次收藏
  • 代码片获得112次分享
创作历程
  • 18篇
    2020年
  • 3篇
    2019年
  • 9篇
    2018年
成就勋章
TA的专栏
  • 数据仓库建模
    1篇
  • spark
    2篇
  • habse
    1篇
  • python
    11篇
  • tkGo
    7篇
  • hive
    8篇
  • linux
  • kafka
    1篇
  • 程序化交易
    1篇
  • mysql
    1篇
  • 数据仓库
    5篇
兴趣领域 设置
  • 大数据
    hadoophivesparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

我回答面试官,说缓慢变化维有10种处理方式,他惊了

在维度建模理论中,有8种处理方式,包括基础的5种以及混合的3种。再加上大数据时代的2种极限型,共10种,具体如下:
原创
发布博客 2020.04.25 ·
687 阅读 ·
3 点赞 ·
2 评论 ·
8 收藏

你还记得Spark湖畔reduce和reduceByKey的区别吗

reduce和reduceByKey,多了ByKey,相差了很多。
原创
发布博客 2020.04.23 ·
401 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

你真的懂Hive窗口函数吗,如何开窗聚合?

目录1 窗口函数 Windowing functionsFIRST_VALUE(col, bool DEFAULT)LAST_VALUE(col, bool DEFAULT)LEAD(col, n, DEFAULT)LAG(col, n, DEFAULT)2 OVER详解 The OVER clauseFUNCTION(expr) OVER([PARTITION BY ...
原创
发布博客 2020.04.16 ·
1206 阅读 ·
0 点赞 ·
5 评论 ·
8 收藏

org.apache.hadoop.hbase.NotServingRegionException: table_name,row_ky,xxx.xxx. is not online on xxx,x

场景使用spark同步hbase数据至hive报错信息at org.apache.hadoop.hbase.client.RpcRetryingCallerWithReadReplicas.throwEnrichedException(RpcRetryingCallerWithReadReplicas.java:276)at org.apache.hadoop.hbase.clie...
原创
发布博客 2020.04.14 ·
599 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

Hive函数大全(含例子)之数据屏蔽函数、杂项函数、XML解析函数

数据屏蔽函数 Data Masking Functionsmask(string str[, string upper[, string lower[, string number]]])返回结果: 将字符串str中的大写字母替换为upper(默认为X),小写字母替换为lower(默认为x),数字替换为number(默认为n)返回类型: stringselect mask(...
原创
发布博客 2020.04.11 ·
958 阅读 ·
0 点赞 ·
0 评论 ·
6 收藏

Hive函数大全(含例子)之字符串函数(String Functions)

字符串函数 String Functionsascii(string str)返回结果: 返回字符串str首字母的十进制ascii码 返回类型: int select ascii('ABC');-- 结果为 65base64(binary bin)返回结果: 将二进制转换为base64编码 返回类型: string select base64(encode('Uncle B...
原创
发布博客 2020.04.10 ·
2115 阅读 ·
2 点赞 ·
0 评论 ·
10 收藏

Hive函数大全(含例子)之集合函数、日期函数、条件函数

# 集合函数 Collection Functions## size(Map<K.V>)返回结果:返回Map中的元素个数返回类型:int* select size(str_to_map('k1: v1')); -- 结果为 1* select size(str_to_map('k1:v1,k2:v2')); -- 结果为 2## size(Array...
原创
发布博客 2020.04.06 ·
625 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hive函数大全(含例子)之数学函数(Mathematical Functions)

为了方便测试,创建了dual表,该表只有一个字段以及只有一行数据,建表语句如下:CREATE TABLE dual ( x INT)函数名称:round(DOUBLE a),返回类型:DOUBLE返回数字 a 四舍五入后的值select round(1.5) from dual; -- 结果为 2select round(1.1) from dual; -- 结果为...
原创
发布博客 2020.04.05 ·
2207 阅读 ·
2 点赞 ·
0 评论 ·
10 收藏

Hive下数据仓库历史拉链表如何加工,分区键该如何选择

1 缓慢变化维说到历史拉链表,首先得说下缓慢变化维。在现实世界中,维度的属性并不是静态的,而是随着时间的变化而变化,这也体现了数据仓库的特点之一,是反映历史变化的。相对于数据增长较为快速的事实表,维度的变化是相对缓慢的。在维度建模理论中,处理缓慢变化维有三种方式:新的维度属性直接覆盖旧的维度属性,不保留历史数据; 增加新的维度行(需要生成代理键来支持),维度变化前的事实关联...
原创
发布博客 2020.04.04 ·
3186 阅读 ·
0 点赞 ·
1 评论 ·
28 收藏

一键识别图片中的表格数据,并转为Excel

背景有时候我们需要将图片中的表格数据提取出来进行再次编辑,但一个字一个字的敲出来是件非常麻烦的事。有没有更好的办法,一键提取图片中的表格数据,并转成Excel。这时候,就需要用到OCR技术了。OCR传统OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后...
原创
发布博客 2020.03.23 ·
21602 阅读 ·
4 点赞 ·
11 评论 ·
66 收藏

【本周Python热点回顾】画一棵漂亮的樱花树,Python3*和**运算符,Python入门,这就是Python3.8么,i了

热点1:Python——画一棵漂亮的樱花树(不同种樱花+玫瑰+圣诞树喔)摘要:最近翻到一篇知乎,上面有不少用Python(大多是turtle库)绘制的树图,感觉很漂亮,我整理了一下,挑了一些我觉得不错的代码分享给大家(这些我都测试过,确实可以生成)one 樱花树动态生成樱花效果图(这个是动态的):实现代码import turtle as Timport random...
转载
发布博客 2020.03.15 ·
951 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

【皇室战争】使用Clash Royale API,构建你的皇室应用

Clash RoyaleAPI通过Clash RoyaleAPI你可以准确并安全的访问皇室战争的数据,获取美妙的体验,开发令人惊叹的工具或是网站。Clash RoyaleAPI保持和游戏本身一样的质量保准,而且持续开发和改进着。第三方包:clashroyaleclashroyale是一个用python编写的支持异步和同步的对于官方Clash Royale API的封装。...
原创
发布博客 2020.03.08 ·
17335 阅读 ·
2 点赞 ·
2 评论 ·
7 收藏

【tkGo】使用Python连接Impala

一、背景使用Python,打通Impala通道,实现取数自动化,或是作为数据分析的数据源。二、Apache ImpalaImpala是一个开源的,基于Hadoop的分析型数据库。Impala可以查询存储在HDFS或者HBase中的数据。Impala通过专用分布式查询引擎,绕过MapReduce直接访问数据,查询性能远高于Hive。三、impyla基于HiveServ...
原创
发布博客 2020.02.23 ·
1030 阅读 ·
0 点赞 ·
0 评论 ·
8 收藏

【tkGo】一键查找文件内容

1 背景有时候,我们想不起自己记录的信息在哪个文件里,需要一个个打开文件查找,非常麻烦。这时候,我们可以借助python,实现一键快速查找。2 环境Python 3.7.3 64-bittkinterre3 os.walk()os.walk方法用于遍历目录和文件,简单易用,可以帮助我们高效的处理目录、文件方面的事情os.walk方法语法格式如下:os.wa...
原创
发布博客 2020.02.16 ·
694 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

【tkGo】实时记录您的剪贴板

1 背景Make your clipboard data no longer easy to lose2 环境Python 3.7.3 64-bitpywin32 2243 win32clipboard优点:速度快缺点:不跨平台获取文本import win32clipboard as clipclip.OpenClipboard() # 打开剪贴板cli...
原创
发布博客 2020.02.06 ·
565 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【tkGo】推拉窗(Panedwindow)的使用案例

1 背景当我们在tkinter-GUI编程时,需要考虑如下场景的需求:用户需要动态调整子窗口的大小,以改变信息的可见范围。这时候,就需使用到推拉窗组件,Panedwindow。推拉窗根据推拉方向不同分为水平推拉窗和垂直推拉窗两种,并支持嵌套。2 环境Python 3.7.3 64-bit3水平方向推拉窗from tkinter import NSEW, HORIZO...
原创
发布博客 2020.01.29 ·
819 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

【tkGo】将Excel里的图片链接替换为图片(Excel嵌入图片)

1 背景因为某些原因,我们的Excel里会放入一些图片链接,但查看的时候需要一个个点开,通过浏览器显示,非常麻烦。我们可以通过python的openpyxl这个库来解决此问题,一键替换所有链接为图片。2 环境Python 3.7.3 64-bitopenpyxl 3.0.0 (用于操作Excel)requests 2.22.0 (用于下载图片)validators 0....
原创
发布博客 2020.01.19 ·
6225 阅读 ·
2 点赞 ·
6 评论 ·
12 收藏

【tkGo】线程和装饰器的使用案例

1 背景在使用tkinter进行GUI编程时,有时会碰到界面未响应的情况,如下:2 解决办法原因很有可能是执行的某个动作阻塞了线程,可通过使用threading.Thread解决(本例中是点击了Go菜单下的开始选项导致的界面卡死)2.1 解决方法1 - 使用线程封装该动作修改前代码:class MenuGo(EMenu): LABEL_GO = "Go" ...
原创
发布博客 2020.01.14 ·
293 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

pip安装pyspark报MemoryError错误

解决办法:增加--no-cache-dirpip --no-cache-dir install pyspark
原创
发布博客 2019.06.06 ·
991 阅读 ·
1 点赞 ·
9 评论 ·
4 收藏
加载更多