python数据分析
python_new
这个作者很懒,什么都没留下…
展开
-
统计建模-多元线性回归预测房价
持续找工作中,闲聊时间看看统计建模的相关知识,首先来看建模的一般流程:(1)获取数据,理解指标含义,对指标进行归类(2)数据(3)前期预处理:比如ID,或者该指标的取值唯一等字段就不用参与建模了(4)数据探索,看数据的分布情况,发现缺失、异常、数据均衡性问题1、自变量x和因变量y的分布情况;连续变量看均值、中位数、标准差、偏度等,离散变量看频数,占比等;...原创 2020-03-27 17:00:50 · 2928 阅读 · 0 评论 -
闲聊数据建模流程
闲聊在数据建模之前的一些数据预处理步骤。如何培养数据之间的敏感性,多看各指标的分布,通过直方图,柱形图,概率密度图能看到数据的分布情况,能看到数据集中在什么位置,边界值在什么位置。1、取数:首先是理解业务,理清逻辑,写sql去数据库里面取数2、简单理解变量:取数完成之后,放到excel或者是用python读取文件,浏览数据,记录下每一个变量的含义,并且对变量进行分组,比如在金融行业,将能代表...原创 2020-03-06 13:12:22 · 520 阅读 · 0 评论 -
统计分析知识之--描述性统计
数据统计之描述性统计:变量类型包括分类变量和连续变量。如果细分分类变量又可以分为名义变量和等级变量,名义变量没有高低贵贱之分,如男女性别,等级变量存在等级之间的划分,如成绩的优良、中等、及格等:度量标准分类变量:分类变量使用频次和百分比(行汇总、列汇总呢、总计百分比)来进行度量,至于频次就可以使用列联表来进行展示,百分比可以用柱形图等。连续变量:连续变量的度量就比较复杂了,主要包含三...原创 2020-02-29 18:24:16 · 4147 阅读 · 0 评论 -
数理统计的相关知识
闲情逸致,写几篇小文,也算是安慰一下自己------------统计分析常用分析方法-------------下图总结了统计学中我们常用到的一些统计分析方法,图表来源于Ben老师。从大类来看,分析包含四大类:探索性分析(新产品如何定价[成本、市场竞争和需求]),描述性分析(昨天交易情况如何,偏向于统计维度),解释性分析(指标为什么下降[先看同比情况;然后查看其他因素,周六日、节假日、服务器崩溃...原创 2020-02-29 14:28:05 · 270 阅读 · 0 评论 -
Python原生态函数小结
最近疫情大爆发,简历投出去基本上没什么反应,闲着也是闲着还不如巩固一下以前的知识:1、字符串可以是单引号、双引号(一般一行以内,当然也可以使用 \ )、三引号(多行);单引号和双引号可以互用;c = ‘It is a “dog”!’2、常用函数str.strip(",") – 去除字符串里面的 , 号str.split(",") – 对字符串按照,进行分割------------...原创 2020-02-28 16:44:09 · 196 阅读 · 0 评论 -
python遍历sheet并将处理结果存储到当前工作表中
1、背景刚开始的时候,领导给了我一张excel表,她说每周都不定期更新,每次更新都是复制粘贴,不但容易出错,而且要花费2个多小时,然后她问我,你在下班时间可以考虑怎么用脚本如python,或VBA把这个东西做批量化处理,提高一下工作效率,我说好,然后就开始构思怎么去处理这样一种格式的数据,捡起我3个月都没写脚本的热情,就展开了。刚开始也没想着一下就能完全实现,一步一步来,快一点是一点,然后写了一...原创 2019-10-31 23:52:10 · 7306 阅读 · 0 评论 -
python遍历文件夹中带指定后缀的文件并做数据拼接
1、背景不知道小伙伴们平时有没有这样的困惑,去平台上面疯狂的导数,然后复制粘贴,做加工处理,做个表格,交给领导看,稍微不注意,还出错,被领导一顿批,下面我介绍一种简单的应用场景,使用代码来批量实现。具体的情况如下:(1)在某个文件夹下面,我们想把以xlsx为后缀的文件筛选出来(2)获取下划线后面的订单id(3)将xlsx为后缀的文件内容做纵向拼接文件夹的内容如下:订单表201910...原创 2019-10-29 22:54:51 · 2458 阅读 · 0 评论 -
python数据分析
利用python进行数据分析 第三章学习总结原创 2017-08-18 10:31:12 · 475 阅读 · 0 评论