数据分析
qq_41978139
这个作者很懒,什么都没留下…
展开
-
python Matplotlib 系列教程—— 图例,标题和标签的使用
在上次一个简单的例子后,我们介绍一下如何使用图例,标题和标签。数据是一个图表所要展示的东西,而图例,标题和标签则更加的帮助我们理解这个图表所包含的意义,是想要传...转载 2020-07-15 20:36:26 · 1185 阅读 · 0 评论 -
python时间序列画图设置坐标轴刻度格式
https://www.jianshu.com/p/6905e310252b 参考需要画柱状图,日期刻度比较密集,自动出来的结果成了这样于是就在网上搜索如何自己设置刻度 目前找到的方法是:import matplotlib.dates as dates #...转载 2020-07-15 19:22:47 · 4420 阅读 · 2 评论 -
用python分析用户的消费行为
一、题外话 数据来自秦路老师的公众号,关注秦路老师的公众号,然后回复CD数据即可获得,我是一名数据分析小白,跟着老师的文章...转载 2020-07-14 18:48:13 · 997 阅读 · 0 评论 -
numpy的astype函数
astype函数用于array中数值类型转换x = np.array([1, 2, 2.5])x.astype(int)1...转载 2020-06-30 18:42:34 · 3438 阅读 · 0 评论 -
numpy 的triu及trul 函数以及参数k的解释
import numpy as np np.triu np.tril例如q=np.triu(np.ones((5,5)), k=0)上面两个函数分别是返回上三角和下三角矩阵的函数,值得说的是参数k。 k表示从第几条对角线起保留数据。 正值是主对角线往上数,负值 是往下数。k=0时表示从主对角线开始保留。下面以5*5矩阵及triu 函数为例,不同的k参数的结果...转载 2020-06-30 18:27:28 · 725 阅读 · 0 评论 -
pandas中的reset_index()
数据清洗时,会将带空值的行删除,此时DataFrame或Series类型的数据不再是连续的索引,可以使用reset_index()重置索引。import pandas as pdimport numpy as npdf = pd.DataFrame(np.arange(20).reshape(5,4),index=[1,3,4,6,8])print(df) 0 1 2 31 0 1 2 33 4 5 6 74 8 ...转载 2020-06-29 19:38:38 · 969 阅读 · 0 评论 -
sklearn之模型选择与评估
sklearn之模型选择与评估在机器学习中,在我们选择了某种模型,使用数据进行训练之后,一个避免不了的问题就是:如何知道这个模型的好坏?两个模型我应该选择哪一个...转载 2020-06-29 14:13:50 · 799 阅读 · 0 评论 -
数据预处理:独热编码(One-Hot Encoding)和 LabelEncoder标签编码
数据预处理:独热编码(One-Hot Encoding)和 LabelEncoder标签编码 </h1> <div class="clear"></div> <div class="postBody"> 一、问题由来在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。离散特征的编码分为两种情况: 1、离散特征的取值之间没有大小的意义,比如colo...转载 2020-06-29 10:09:48 · 812 阅读 · 0 评论 -
非正态分布数据转换成正态分布
常用的变量变换方法有对数变换、平方根变换、倒数变换、平方根反正弦变换等,应根据资料性质选择适当的变量变换方法。1. 对数变换即将原始数据X的对数值作为新的分布数据:X’=lgX当原始数据中有小值及零时,亦可取X’=lg(X+1)还可根据需要选用X’=lg(X+k)或X’=lg(k-X)对数变换常用于(1)使服从对数正态分布的数据正态化。如环境中某些污染物的分布,人体中某些微量元素的分布等,可用对数正态...转载 2020-06-29 09:42:26 · 3399 阅读 · 0 评论 -
深入探讨回归分析的假设条件、散点图以及解决方案
回归分析标志着预测建模的第一步。毫无疑问,回归分析非常容易实现。无论是语法还是其中使用的参数,都没有任何易混淆的。但是,只跑一行代码是无法解决问题的,也不是只看看R² ,MSE值就可以的。回归分析告诉我们的远远不止这些!All models ...转载 2020-06-29 09:36:52 · 3536 阅读 · 0 评论 -
五种常用异常值检测方法
Toggle navigation ...转载 2020-06-22 14:46:37 · 24123 阅读 · 2 评论 -
异常值检查与处理
异常值的定义:异常值,即在数据集中存在不合理的值,又称离群点,如下所示:异常值判别方法:1.简单统计法对属性值进行一个描述性的统计,从而查看哪些值是不合理的。比如:对待一个人的身高,不可能说有人的身高出现3m等以上的;如果是能使用图像直接显示数据的话,可以直观的直接直观的从图片中得出异常值2. 3δ原则当数据服从正态分布:根据正态分布的定义可知,距离平均值3δ之外的概率为 P(|x-μ|>3δ) <= 0.003 ,这属于极小概率事件,在默认情况下我们可以认定,距离超过平均值3δ的样转载 2020-06-22 14:20:48 · 655 阅读 · 0 评论 -
数据预处理之异常值处理
定义:异常值,即在数据集中存在不合理的值,又称离群点。比如年龄为-1,笔记本电脑重量为1吨等,都属于异常值的范围。从集合角度来看,异常值即离群点,如下图所示:...转载 2020-06-22 14:19:27 · 1278 阅读 · 0 评论 -
python 中的 scipy.stats 统计分析包,偏度峰度
python 来做统计分析时一般使用 scipy 中的 stats。 numpy 也能生成一定概率分布的随机数,但如果需要更具体的概率密度,累积概率等,就用用到 ...转载 2020-06-22 09:17:11 · 1532 阅读 · 0 评论 -
估算类问题-费米问题
估算类问题-费米问题 </h1> <div class="clear"></div> <div class="postBody"> 考点 首先,这是属于学术界数量估算中的“费米问题”。 其次,考察候选人的:逻辑思考、分析和心理抗压能力。方法 1. Top-down、Bottom-up例子1. 请你估算一下一...转载 2020-06-12 14:23:09 · 1064 阅读 · 1 评论