数据分析
文章平均质量分 74
yunpeng.zhou
纸上得来终觉浅,绝知此事要躬身。
展开
-
Jupyter + Pyspark + Yarn 交互式大数据分析
jupyter+pyspark+Yarn 交互式大数据分析, pyspark交互式环境配置,spark在线交互式数据分析原创 2024-07-12 11:20:49 · 959 阅读 · 0 评论 -
CDH集群离线配置python3环境,并安装pyhive、impyla、pyspark
1. CDH集群离线配置python3环境,并安装pyhive、impyla、pyspark。2. 使用远程Jupyterlab 服务,利用pyspark 对千万级数据在线分析原创 2023-08-22 11:19:49 · 1044 阅读 · 0 评论 -
matplotlib与seaborn常用绘图及设置
matplotlib与seaborn常用绘图及设置 3种绘图方式 双系列柱状图 三维图绘制 小提琴图 填充图或面积图 动态图 修改坐标系显隐性及坐标轴位置 中文与负号显示乱码问题seaborn 绘图整体风格、环境 离散变量统计分析 分类散点图、箱型图、小提琴图、点图,柱状图等 FacetGrid catplot=FacetGrid+stripplot histplot、kdeplot joinplot pairplot PairGrid scatterplot lineplot regplot原创 2023-03-14 09:37:20 · 427 阅读 · 0 评论 -
Spark-core/SparkSQL 简单使用总结
Spark-core总结 RDD对象特性和RDD常用算子总结(SparkContext对象创建、RDD对象创建、Transformation算子Action 算子分区操作算子 RDD优化缓存 cache与checkpoint RDD共享变量与累加器 共享变量(广播变量与累加器)RDD全局并行度设置;SparkSQL总结 DataFrame构建 DataFrame数据处理代码风格 DataFrame数据清洗API DataFrame注册成表 SparkSQL 数据保存 自定义udf函数 开窗函数 Shuff原创 2022-08-16 16:13:33 · 2571 阅读 · 0 评论 -
jupyter-lab 使用常规设置
1、 jupyter-lab 添加不同内核2、 jupyter-lab修改工作目录3、jupyter-lab 多行输出(单个cell)4、jupyter-lab指定默认浏览器5、jupyter-lab 远程访问服务原创 2022-06-20 23:12:01 · 957 阅读 · 0 评论 -
jupyterhub (多用户平台)安装配置、安装问题解决、用户验证问题
jupyterhub 安装、安装问题解决、用户验证问题一,基础环境腾讯云centos7 + anaconda3(python3.8.8) 注意:最好是带有网的环境,不带外网的电脑离线安装jupyterhub安装很费劲,github源码、whl等均失败。二,下载软件安装jupyterhubpip install jupyterhub -i XXX 有网可以使用清华源/没网找自己公司镜像源注意:使用conda安装会很慢,偶尔会失败,不知道为什么,目前自动安装jupyterhub1.原创 2021-11-18 10:04:13 · 3870 阅读 · 1 评论 -
基于python 利用pyecharts作图,实现图表随数据变化实时更新
基于python 利用pyecharts作图,实现图表随数据变化实时更新利用vue和echarts可以设置定时获取数据渲染页面,但pyecharts做的图在前端页面上为JS中的一个对象数据,(利用Python搭建服务器定时返回新作的图表太麻烦目前不想这样做),那位大神有好办法不妨告知。。。目前采用定时修改pyecharts图表对象的属性值,在渲染页面:代码如下<!-- 初始化echarts图表 --> var chart_65e195a41f494479b5c980b2原创 2021-08-28 22:37:13 · 4019 阅读 · 0 评论 -
pandas 行列转换
HSql 行列转换(collect_list/set, lateral view + explode/posexplode)pandas 行列转换1、一个array字段纵向扩展(多行) explode(col)2、一个array字段横向扩展(多列) .str.split(,expand=True)3、行转列(某些字段值转换为表头) pd.pivot4、列转行(部分列名转换位一列数据值)pd.melt5、多列合并两列(列合并)pd.lreshape原创 2021-08-28 22:35:39 · 5288 阅读 · 0 评论 -
python岗位数据分析报告
python岗位数据分析报告数据集为针对智联,boss,拉勾三个招聘网站的爬取,爬取关键字段:语言为python,java,c;城市为 北上广深郑杭;数据分类保存在 ‘’python招聘数据.xlsx‘’ 表格中研究问题 :一. python相关岗位(数据分析,数据挖掘,开发工程师)地区(北京地区内)分布(1) 数据处理# 导入模块import pandas as pd# 读取数据full_data = pd.read_excel('python招聘数据.xlsx',sheet_name原创 2021-08-28 22:33:29 · 3133 阅读 · 1 评论