大数据
文章平均质量分 56
sunpro518
山东人
展开
-
win10通过docker安装seafile
文章目录win10通过docker安装seafiledocker安装启动seafile容器seafile客户端使用win10通过docker安装seafiledocker安装升级win10到专业版或者企业版下载docker安装包安装docker启动seafile容器拉取seafile镜像启动seafileseafile客户端使用管理员普通用户...原创 2021-03-16 16:37:34 · 1892 阅读 · 0 评论 -
pandas的日期时间间隔运算
pandas的日期时间间隔运算pdandas的日期处理,基本的需求都可以满足。主要包括:时间段的生产时间格式转化间隔时间运算等原文地址:【简书:pandas的日期时间间隔运算】...转载 2019-12-20 11:13:25 · 1970 阅读 · 0 评论 -
Python 离线安装pyecharts模块
我们在做企业项目的时候,进行数据可视化,需要用到pyecharts模块。但是一般来说,企业的服务器是不能连接到外网的。所以需要离线安装。这里记录一下几个关键的问题。步骤从PyPI网站搜索‘pyecharts’1,找到自己想要的pyecharts版本的下载包。我用的是pyecharts-0.5.11-py2.py3-none-any.whl。用和服务器相同环境的,能够联网的电脑进行安装(...原创 2019-01-08 13:28:23 · 14124 阅读 · 0 评论 -
pyspark 空值填充
在进行数据分析的时候,空值的处理是数据预处理过程中的重要环节。在利用pyspark进行数据空值填充的过程中,遇到了一个坑,坑得明明白白。就是简单的空值处理,花费了好几天的时间。其实还是API的理解不到位的原因。特此整理一下,共勉共享。1. 问题描述具体描述一下待处理的问题,以便记录整理。假设有一个数据如下表:idname1sun2wang3John...原创 2019-06-04 12:27:05 · 17227 阅读 · 0 评论 -
SparkSQL 中group by、rollup和cube使用
具体内容讲解参考博客:CSDN:SparkSQL 中group by、grouping sets、rollup和cube方法详解下面为pyspark的示例:自己瞎编了一个csv,小学期末成绩统计:班级,姓名,课程,成绩1班,小明,语文,961班,小明,数学,991班,小明,英语,891班,小红,语文,921班,小红,数学,861班,小红,英语,992班,小强,语文,922班,...原创 2019-08-30 13:47:49 · 1941 阅读 · 2 评论