python数据分析
文章平均质量分 79
小小明-代码实体
高阶数据处理玩家带你高端姿势玩数据!!!关注我发现更多精彩~
展开
-
使用Python进行同期群分析(Cohort Analysis)
同期群分析同期群分析概念同期群(Cohort)的字面意思(有共同特点或举止类同的)一群人,比如不同性别,不同年龄。结合到用户分析层面,比如不同月份获取的用户,不同渠道新增用户,具备不同特征的用户(比如微信里每天至少和10个以上朋友微信的用户)。同期群分析(Cohort Analysis),将这些具有不同特征的人群进行对比分析,以发现他们在时间维度下的行为差异。同期群分析的分组逻辑有:按获客月份(按周甚至按天分组)按获客渠道按照用户完成的特定行为,比如用户访问网站的次数或者购买次数来分类。原创 2021-05-08 00:21:14 · 26441 阅读 · 60 评论 -
AQI空气质量分析与预测
AQI全称是Air Quality Index,指空气质量指数,用来衡量空气清洁或者污染的程度,值越小,表示空气质量越好。一、描述性统计二、推断统计三、相关系数分析四、区间估计五、统计建模本文理论基础可参考:描述性统计、参数估计和假设检验https://xxmdmst.blog.csdn.net/article/details/115410809本文目录:导包并读取数据:数据集描述:数据集下载地址:https://gitcode.net/as604049322/blog_data对于缺失值,我们可以使用如原创 2022-09-23 18:17:56 · 73060 阅读 · 114 评论 -
描述性统计、参数估计和假设检验
描述性统计分析描述性统计所提取的统计的信息称为统计量,包括频数与频率,反映集中趋势的均值、中位数、众数和分位数,反映离散程度的极差、方差和标准差,反映分布形状(相对于正态分布)的偏度和峰度。变量分为类别变量和数值变量,类别变量往往被作为维度,数值变量往往被作为指标。类别可以经过特定的转换转换为数值,从而作为指标,数值变量也可以经过特定的分箱或转换转换为文本型变量,从而作为类别或维度。频数与频率最基本的统计量就是频数与频率,它们适用于类别变量。频数,指数据中类别变量每个不同取值出现的次数。频率,指原创 2021-04-03 01:31:42 · 43635 阅读 · 58 评论 -
可一键生成数据分析报告的两个库
小小明今天要介绍两个一行代码就可以生成数据分析报告的库,分别是sweetviz和pandas_profiling。首先我们从码云上下载测试数据:import pandas as pdimport numpy as nptitanic = pd.read_csv("https://gitee.com/hyesc/machine-learning-stu/raw/master/titanic.csv")titanic.head()sweetviz参考:https://github.co.原创 2021-03-23 01:50:04 · 61219 阅读 · 52 评论 -
Pandas实现列表分列与字典分列的三个实例
大家好,我是小小明,本人非常擅长解决各类复杂数据处理的逻辑,包括各类结构化与非结构化数据互转,字符串解析匹配等等。至今已经帮助很多数据从业者解决工作中的实际问题,如果你在数据处理上遇到什么困难,欢迎与我交流。上次我分享了一道基础题N种解题思路,其中一种读取数据的过程涉及到列表分列,详见:https://blog.csdn.net/as604049322/article/details/112760894这次我将分享三个实际案例,让大家看看列表分列的一些实际应用。首先,我们先导包并设置Pandas.原创 2021-01-18 17:27:01 · 34979 阅读 · 4 评论 -
用Matplotlib画两张花里胡哨的图
作者:小小明导包import matplotlib.pyplot as pltimport matplotlib as mplimport numpy as npimport pandas as pd# 解决中文显示问题mpl.rcParams['font.sans-serif'] = ['SimHei']mpl.rcParams['axes.unicode_minus'] = False数据读取excel = pd.ExcelFile("旅游数据.xlsx")df_2019 =.原创 2021-01-11 20:26:07 · 33302 阅读 · 0 评论 -
Matplotlib绘制分组聚合流程图
Matplotlib绘制分组聚合流程图首先创建一个绘制Dataframe的代码:import matplotlib as mplimport matplotlib.pyplot as plt%matplotlib inline# 解决中文显示问题mpl.rcParams['font.sans-serif'] = ['SimHei']mpl.rcParams['axes.unicode_minus'] = Falsedef draw_dataframe(df, loc=None, widt原创 2021-01-10 20:08:44 · 40089 阅读 · 0 评论 -
Python快速查找每个站的最近的10个站
作者:小小明,Pandas数据处理专家,致力于帮助无数数据从业者解决数据处理难题。这是半年前写的一篇文章,里面涉及的方法可能有些过时,但处理思想仍有较高的参考价值,现在发布到csdn。文章目录数据形式基站数据库数据需找出最近距离的基站数据使用KNN分类器计算每个基站最近的10个基站筛选用于训练的经纬度特征数据构建KNN分类器训练模型并计算获取结果结果整理最终合并代码:保存结果整体完整代码求连接的基站不在最近6个基站内的采样点数据读取将基站名称转换为索引获取最近的6个点获取连接的基站不在最近6个基站内.原创 2021-01-08 23:07:05 · 42052 阅读 · 3 评论 -
Pandas实战案例-冷空气活动寒潮级别的计算与分类
作者:小小明Pandas数据处理专家,帮助一万用户解决数据处理难题。需求分析寒潮的定义:数据的输入和输出格式:统计口径确认:我一开始不理解,24小时内降温幅度大于8度如何计算,与需求方确认后,可以通过2日温度之差来计算。同样48小时内降温幅度可以用3日温度之差来代表,72小时内降温幅度可以用4日温度之差来代表,需求方的解释:好了,理解清楚了需求,咱们就可以开始干活了:读取数据首先读取数据:import pandas as pdimport numpy as npdf =.原创 2021-01-01 23:25:53 · 39050 阅读 · 1 评论 -
docxtpl实战案例-审计脚注表格回填
作者:小小明Pandas数据处理专家,帮助一万用户解决数据处理难题。最近碰到一个需求:虽然我没完全看懂啥意思,但大意就是:1.读取word文档,将其中所有的表格都写入到一个excel文件中2.对写好的excel做出一些修改(包括改某几个单元格的值和删除行),然后将修改后的excel数据回填到word表对应的位置对于第一个需求,直接用pandas写出即可对于第二个需求,先生成模板,再用docxtpl模板渲染关于docxtpl,我已经根据官方文档,制作了一份操作手册:https://blo.原创 2020-12-31 17:32:49 · 38175 阅读 · 2 评论 -
docxtpl使用手册
作者:小小明大家好,我是小小明,这篇文章将给大家分享一个强大的包docxtpl ,它通过对docx文档模板加载,使用jinja2网页模板开发的语法对其进行修改。docxtpl 的简介前面我分享过python-docx库的操作案例,而这次分享的docxtpl 就是基于python-docx和jinja2开发出来的库。docxtpl 的作者开发出它的原因主要是python-docx擅长创建word文档,却不擅长修改。对于docxtpl来说,使用MicrosoftWord编辑文档时,直接在文档中插入.原创 2020-12-31 14:35:36 · 52128 阅读 · 12 评论 -
python-docx实战案例-字音回填
大家好,我是小小明,今天我要给大家分享的是两个word文档处理的案例,核心是读取excel的数据,按照指定的规则写入到word中。之前们已经分享过一些pandas读写excel的例子,这次我们需要在此基础上还需读写word文档。python-docx简介利用python读写word文档的库是python-docx,安装:pip install python-docxpython-docx 官方文档: https://python-docx.readthedocs.io/en/latest/基本原创 2020-12-31 14:32:45 · 37640 阅读 · 2 评论 -
Pandas指定样式保存excel数据的N种姿势
作者:小小明文章目录准备数据pandas使用xlsxwriter引擎保存数据xlsxwriter按照指定样式写出pandas对象的数据pandas使用openpyxl引擎保存数据准备数据import pandas as pdfrom datetime import datetime, datedf = pd.DataFrame({'Date and time': [datetime(2015, 1, 1, 11, 30, 55), .原创 2020-12-28 00:15:55 · 52810 阅读 · 14 评论 -
python如何实现任务超时处理?
在做公众号开发-被动回复消息的过程中,官方要求如下:假如服务器无法保证在五秒内处理并回复,必须做出下述回复,这样微信服务器才不会对此作任何处理,并且不会发起重试(这种情况下,可以使用客服消息接口进行异步回复),否则,将出现严重的错误提示。详见下面说明:1、直接回复success(推荐方式) 2、直接回复空串(指字节长度为0的空字符串,而不是XML结构体中content字段的内容为空)一旦遇到以下情况,微信都会在公众号会话中,向用户下发系统提示“该公众号暂时无法提供服务,请稍后再试”:1、开发者在5原创 2020-05-15 23:18:32 · 36422 阅读 · 2 评论 -
linux下安装Anaconda以及配置jupyter的远程访问
文章目录下载Anaconda安装使用anaconda配置jupyter支持远程访问配置jupyter使用密码访问后台运行jupyter前言已经有超过三人像我反应使用网上的教程Anaconda有问题,有的装不了,有的装的直接整的自己yum命令用不了,linux服务器都被整费。为此我给大家写的简单的安装教程,避免大家可能踩的坑。下载Anaconda去 https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive或https://repo.anaconda原创 2020-05-10 19:56:53 · 28302 阅读 · 1 评论 -
windows下pyspark访问hive所需的环境搭建
文章目录windows下pyspark访问hive所需的环境前提搭建hadoop2.7.2修改hadoop配置格式化hdfs测试搭建spark-2.4.5解压hive-2.1.0创建hive元数据库的schema测试spark-sql测试hivejupyter中使用pyspark使用pyspark访问本地hive测试pyspark前言学习大数据最困难的就是入门时的环境搭建,虽然那是对理解原理...原创 2020-05-03 21:11:15 · 28082 阅读 · 12 评论