- 博客(22)
- 资源 (5)
- 收藏
- 关注
原创 在分析了豆瓣Top250电影的数据后,我发现了这些不为人知的规律(附源代码和详情讲解)
这一段时间都在学习数据分析的相关知识,包括numpy、pandas、matplotlib、seaborn、ploty这些工具的使用和一些统计学的相关知识。有了这些基础,我就非常迫不及待的想操练操练。于是,我就打算使用豆瓣电影Top250进行数据分析。豆瓣Top250电影python数据分析使用python爬虫获取豆瓣电影数据清洗和处理数据使用方差、皮尔斯相关系数分析,plot进行数据...
2020-02-28 11:04:00 11333 4
原创 python数据分析实战-在线零售业务的交易-电商平台零售数据分析(附源代码)
电商平台零售数据分析前面的博客中已经有使用在线零售业务数据进行数据分析,但是在这一篇,我们以不同的角度重新对这些数据进行分析。数据来源及数据结构国外的在线零售业务的交易数据,数据下载地址现在以表格的形式解释一下里面的字段:字段说明InvoiceNo订单编号,含有6个整数,退货订单编号开头有字母CStockCode产品编号,由5个整数构成Descri...
2020-02-23 20:17:57 4499 4
原创 python数据分析-数据分析流程、方法以及实例实战-在线零售业务的交易数据分析实战
数据分析流程明确问题:明确问题是数据分析中的第一步,必须明确数据分析的真实需求理解数据:数据获取和数据探索数据清洗:一个数据分析项目大部分时间花在数据清洗上数据分析和可视化:对清洗后的数据进行分析,并且通过可视化展示出结果结论和建议:对结果进行解读,得出有价值的结论并且提出相关建议。数据分析方法常用统计方法,例如计算常用统计量和构建相关指标图表法,通过各种图形结合来展示数据里...
2020-02-23 09:39:41 1025
原创 python数据分析-相关分析
python数据分析-相关分析概念在现实中,事物与事物之间或多或少存在一定的关系,数据之间也不例外,数据与数据之间关系往往提醒安于互相依存的关系,而相关分析主要就是分析两个变量之间的相互影响程度,在数据分析中,相关分析就是度量的是两个连续型变量之间的相关型。常见的的度量指标如下:皮尔森相关系数Pearson斯皮尔曼相关系数Spearman相关型越强,说明两个变量之间的影响程度越...
2020-02-22 00:04:24 2067
原创 python统计分析-卡方分析和方差分析
python统计分析-卡方分析和方差分析卡方检验卡方检验主要是检验两个分类变量之间的关系,主要检验是否相关,不能表示强弱。 两个分类变量,其中有一个必须是二分类,不能都是多分类。下面代码实践,使用的是泰坦尼克号人员信息的数据。分析船舱等级与存活是否存在关系:titanic.csv数据下载import pandas as pdfrom scipy import statstitani...
2020-02-21 22:38:19 2682
原创 python统计分析-假设检验
假设检验一、假设概念假设总体均值为μ,那么实际抽样的均值离μ越近意味着假设越合理,相反,实际抽样均值离μ越远意味着假设越不合理。其中,实际抽样结果与假设的差异“程度”可以用概率值表示,概率值越大意味着越无差异。在实际中往往认为设定一个P-value的阈值将差异程度判断为有差异或者无差异,这就是显著性水平。二、假设检验基本步骤提出原假设和备择假设确定适当的检验统计量规定显著性水平计算...
2020-02-21 21:04:49 1648
原创 python统计分析常用基础知识总结(python数据分析师必备)
基本的统计学概念描述性统计分析统计量均值 --表示一种数据集中趋势的量数标准差 --反应数据的离散程度,数据平均值的分散度量中位数 --一种不受极大值极小值影响、衡量集中趋势的办法分位数-- 将一个随机变量的概率分布范围分为几个等份的数值点众数 – 统计分布上具有明显集中趋势点的数值极差 —数据的最大值-数据的最小值 反应变量分布的离散程度四分位差...
2020-02-21 14:35:37 1604 2
原创 matplotlib箱线图画法以及参数详情介绍
matplotlib箱线图的画法先看代码:import pandas as pdimport matplotlib.pyplot as plttips = pd.read_csv('tips.csv')plt.boxplot(x=tips['tip'],showcaps=True,patch_artist=True,showmeans=True,showfliers=True,\ ...
2020-02-19 22:39:24 2022
原创 matplotlib双y轴,共用同一x轴的画法图像的画法
matplotlib双y轴的画法在我们使用matplotlib画图的时候,有时候需要将两个折线图放在同一个图像中,但是由于这两个图形数值大小范围不一样,使用同一y轴,效果会大打折扣的,所以,这里介绍一种双y轴的画法。先上代码:import matplotlib.pyplot as pltimport pandas as pdtips = pd.read_csv('tips.csv'...
2020-02-19 18:56:27 7766 1
原创 matplotlib画图教程系列之-堆积柱状图
matplotlib堆积柱状图画法介绍堆积柱状图可以理解是两个柱状图显示在一个图形中,关键属性就在与bottom这个属性。
2020-02-19 13:53:50 4815
原创 matplotlib画图教程系列之-折线图
matplotlib折线图画法介绍折线图相较于散点图而言,x轴数据应是有序的,不然的话线条特别的乱,就表现不出来折线图的优势了。import pandas as pdimport matplotlib.pyplot as plttips = pd.read_csv('tips.csv')tips.sort_values(inplace=True,by='total_bill')to...
2020-02-19 12:42:02 1046
原创 matplotlib画图教程系列之-散点图
matplotlib散点图画法介绍散点图,通常把被使用在探索两个变量之间的关系。先上代码:import pandas as pdimport matplotlib.pyplot as plttips = pd.read_csv('tips.csv')total_bill = tips['total_bill'].valuestip = tips['tip'].valuesplt...
2020-02-19 12:23:17 2851
原创 matplotlib画图教程系列之-条形图
matplotlib条形图画法介绍先上代码:import pandas as pdimport matplotlib.pyplot as pltplanets = pd.read_csv('planets.csv')planets = planets.groupby('year').sum()['number'].tail(7)print(planets)plt.rcParams['...
2020-02-19 12:09:32 872
原创 matplotlib画图教程系列之-饼状图
matplotlib饼状图画法介绍先上代码:import pandas as pdimport matplotlib.pyplot as pltplanets = pd.read_csv('planets.csv')planets = planets.groupby('method').sum()['number'].head(4)print(planets)y = planets....
2020-02-19 11:45:29 1930
原创 通过源代码进行高效学习pandas,受益颇多
通过源代码学习pandas我不知道大家是怎么学习pandas这个包的,我是首先看了一遍教学视频,然后看了一遍文档,当我在使用的时候,两个感受,第一,我手中的文档是别人整理的,对于方法只有部分重要参数介绍。第二,视频教程不会给你也只会给你讲一些常用的参数。当然,如果你从官网整理了官方的文档,那是十分的详细了,也就不用看这篇文章了。但是,你没有这样的一篇完整的文档,下面的内容好好看看。举个获取...
2020-02-17 17:00:38 2249
原创 pandas数据离散化pandas.cut()和pandas.qcut()
pandas数据离散化什么叫数据离散化?也可以理解为数据分组。举个简单的例子,我们有一组学生成绩的数据,我们可以将数据按照成绩的最大值和最小值划分为几个相同的区间。假设最高分100分,最低分50分,我们可以划分为两个相同宽度的范围。分别是[50,74]、[75,100]。 统计这两个区间都有多少数据。第二种是根据人数对成绩区间进行划分,所划分的区间人数基本持平。接下来具体通过代码来实现看看。...
2020-02-17 16:36:58 770 6
原创 pandas数据的异常值判断、可视化以及异常值的处理
pandas数据的异常值判断、可视化、处理方式回想一下我们小时候参加唱歌比赛,最后算分的时候总会去掉一个最高分,去掉一个最低分,将剩下的分数进行去平均。这里面就有筛选异常值的思想。一个非常夸张的异常值可能会造成对最后统计结果产生比较大的影响。所以,在这里,我们介绍两种办法来判断异常值,并使用箱线图进行显示。异常值的判断1、使用均值和标准差进行判断mean 为数据的均值std 为数据的...
2020-02-17 15:42:10 21066 4
原创 pandas如何去除重复值
pandas如何去除重复值在我们做数据分析时,我们所要处理的数据中难免会出现重复的数据,有些是我们需要的,有些是我们不需要的,甚至还会影响我们接下来数据分析的准确度。接下来,给大家介绍去除重复值的方法。planets = pd.read_csv('planets.csv')print(planets.head(10))planets.drop_duplicates(subset=['m...
2020-02-17 10:16:06 27952 2
原创 pandas填补缺失值的方法
pandas填补缺失值的方法在处理数据的过程中,经常会遇到原数据部分内容的缺失,为了保证我们最终数据统计结果的正确性,通常我们有两种处理方式,第一种就是删除掉这些部分缺失的数据;第二种就是填补这些缺失的数据。接下来,我们主要介绍填补缺失值的方法。填充法咱们所用到的数据:import pandas as pdimport numpy as npplanets = pd.read_...
2020-02-17 09:12:50 12352
原创 pandas去除掉一列数的单位并转换数据类型
背景:咱们使用pandas处理数据时,通常会遇到带有时间单位的数,此时该列数的数据类型为字符串型,如果需要对该列数字进行相关操作,就必须去掉单位,并转换成整型或者浮点型。咱们先读取一段数据来具体看看:pdata = pd.read_csv('exercise.csv')print(pdata.head(10))获取的数如下图:咱们再看一下数据类型:print(pdata.dty...
2020-02-15 19:17:52 9622 3
原创 pandas将数据保存到csv或者xlsx 中的最基本操作
Pandas保存数据到csv和xlsx中pandas提供了非常方便的函数,能够将数据保存到cvs或者xlsx中。import pandas as pdimport numpy as npimport pymysqlfrom sqlalchemy import create_engineimport openpyxlpdata = pd.read_csv('tips.csv')df...
2020-02-15 18:50:12 35275 4
原创 pandas连接数据库,从数据库读取数据,将数据保存到数据库
pandas连接数据库import pymysqlfrom sqlalchemy import create_enginesql = 'select * from data'conn = create_engine('mysql+pymysql://root:159951@127.0.0.1:3306/test')pdata = pd.read_sql(sql,conn)print(...
2020-02-15 18:15:20 6333
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人