- 博客(6)
- 资源 (8)
- 收藏
- 关注
转载 【转载】SPARK-SQL的几种JOIN实现
文章来源:面试必知的 Spark SQL 几种 Join 实现依亲身经历而言,面试官的确有可能会问你JOIN有哪些分类,这时候一定不要慌,让我们一起来看看该怎么回答。JOIN的基本要素join条件(ON)、过滤条件(where)、JOIN方式(join/left join/full join等)是构成JOIN的三大基本要素JOIN的基本实现流程Spark将参与Join的两张表抽象为流式遍历表(streamIter)和查找表(buildIter),通常streamIter为大表,buildIter
2020-08-03 00:07:37 520
原创 【Python】时间模块
在python中,定义和操控时间常用到的是time和datetime这两个模块timedatetimefrom datetime import datetime,date,timedeltafrom dateutil.relativedelta import relativedelta获取当前时间# 获取当前时间datetime.now()# datetime.datetime(2020, 7, 14, 10, 58, 40, 492463)# 转换成指定形式datetime.
2020-07-17 17:03:08 150
原创 【读书笔记】《特征工程入门与实践》
文章目录数据等级数据等级本书认为数据可以分为四大等级,分为是:定类、定序、定距、定比,其中定类和定序都是定性的数据,定距和定比是定量的数据。定类是离散的、无序的,举例:人名、油漆名称、动物物种:猴子、马、牛等定序是有序类别、可以比较的,举例:考试等级:Great、Good、Not bad、Bad等或 0 - 6 表示心情的好坏程度定距是有数据意义的、但是做除法是没有意义的,比如温度定比是连续的、存在有意义的绝对零点、可以做除法---- 未完待续...
2020-06-17 22:15:40 520
原创 【hdfs命令】 查看表的存储大小
查看表的大小通常的方法是hdfs dfs -du -h, 但统计的是子目录的大小,如:hdfs dfs -du -h /user/hive/warehouse/tmp.db/xxx555.7 G 1.6 T /user/hive/warehouse/tmp.db/xxx/data_date=20200610556.2 G 1.6 T /user/hive/warehouse/tmp.db/xxxt/data_date=20200611其实我们需要统计当前目录的大小时可加入 -s
2020-06-15 11:32:06 5587
原创 【PYTHON基础数据类型】set、list、tuple、dict的区别
数据结构中文是否有序是否可重复是否可操作例子查询方式其他常见用法注意事项list列表有序可重复可修改、可更新、可删除 、可嵌套s1 = [‘a’,1,1,{‘a’:2}]下标索引查询 如: s1[0:2]s1.append(‘b’)、del s1[2]set集合无序不重复可修改、可更新、可删除 、不可嵌套s1 = set()下标索引查询 如: s1[0:2]s1.append(‘b’)、del s1[2]可哈希的元素有:int、f...
2020-06-10 23:11:16 251
mastering the game of go with deep neural networks and tree search.pdf
2019-02-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人