python数据分析
python数据分析师进阶之路,将所学所思全都记录下来,
梁先森-在技术的路上奔跑
希望能做一个为周围人带来温暖,为家人和爱人带来幸福,为社会做出贡献的人
展开
-
python爬取携程旅游评价信息词云图分析
这一篇呢,咱们主要使用jieba和wordcloud这两个包进行评价词云图分析。jieba是一个中文分词的工具包,wordcloud是专门用来画词云图的。原创 2020-07-30 10:32:57 · 3552 阅读 · 0 评论 -
python数据分析-数据清洗流程(附脑图和代码实例)
无论是做机器学习还是做数据分析,都离不开获取数据后的第一步-数据清洗工作。据统计,数据清洗工作占据整个工作时间百分之50左右,有的甚至能达到百分之70。下面我将介绍我进行数据清洗得思路流程。原创 2020-03-11 16:11:28 · 9847 阅读 · 3 评论 -
使用facebook的fbprophet模型预测湖北新冠肺炎确诊人数(包含源码和具体分析过程)
同样是身为一名程序员,别人就能够在疫情期间做出贡献,而我就只能在家自我修炼了。就在昨天,一次偶然的机会学习了以下fbprophet时序预测模型,就决定使用这个框架来进行未来20天人数的预测。但是传染病模型通常比较复杂,此次使用此模型来预测,仅仅是用来练习,结果仅供参考。fbprophet模型简介这个模型(算法)是由facebook公司在2017年正式开源的,主要用于对时间序列进行预测。...原创 2020-03-04 18:46:32 · 2968 阅读 · 3 评论 -
在分析了豆瓣Top250电影的数据后,我发现了这些不为人知的规律(附源代码和详情讲解)
这一段时间都在学习数据分析的相关知识,包括numpy、pandas、matplotlib、seaborn、ploty这些工具的使用和一些统计学的相关知识。有了这些基础,我就非常迫不及待的想操练操练。于是,我就打算使用豆瓣电影Top250进行数据分析。豆瓣Top250电影python数据分析使用python爬虫获取豆瓣电影数据清洗和处理数据使用方差、皮尔斯相关系数分析,plot进行数据...原创 2020-02-28 11:04:00 · 11341 阅读 · 4 评论 -
python数据分析实战-在线零售业务的交易-电商平台零售数据分析(附源代码)
电商平台零售数据分析前面的博客中已经有使用在线零售业务数据进行数据分析,但是在这一篇,我们以不同的角度重新对这些数据进行分析。数据来源及数据结构国外的在线零售业务的交易数据,数据下载地址现在以表格的形式解释一下里面的字段:字段说明InvoiceNo订单编号,含有6个整数,退货订单编号开头有字母CStockCode产品编号,由5个整数构成Descri...原创 2020-02-23 20:17:57 · 4503 阅读 · 4 评论 -
python数据分析-数据分析流程、方法以及实例实战-在线零售业务的交易数据分析实战
数据分析流程明确问题:明确问题是数据分析中的第一步,必须明确数据分析的真实需求理解数据:数据获取和数据探索数据清洗:一个数据分析项目大部分时间花在数据清洗上数据分析和可视化:对清洗后的数据进行分析,并且通过可视化展示出结果结论和建议:对结果进行解读,得出有价值的结论并且提出相关建议。数据分析方法常用统计方法,例如计算常用统计量和构建相关指标图表法,通过各种图形结合来展示数据里...原创 2020-02-23 09:39:41 · 1029 阅读 · 0 评论 -
python数据分析-相关分析
python数据分析-相关分析概念在现实中,事物与事物之间或多或少存在一定的关系,数据之间也不例外,数据与数据之间关系往往提醒安于互相依存的关系,而相关分析主要就是分析两个变量之间的相互影响程度,在数据分析中,相关分析就是度量的是两个连续型变量之间的相关型。常见的的度量指标如下:皮尔森相关系数Pearson斯皮尔曼相关系数Spearman相关型越强,说明两个变量之间的影响程度越...原创 2020-02-22 00:04:24 · 2073 阅读 · 0 评论 -
python统计分析-卡方分析和方差分析
python统计分析-卡方分析和方差分析卡方检验卡方检验主要是检验两个分类变量之间的关系,主要检验是否相关,不能表示强弱。 两个分类变量,其中有一个必须是二分类,不能都是多分类。下面代码实践,使用的是泰坦尼克号人员信息的数据。分析船舱等级与存活是否存在关系:titanic.csv数据下载import pandas as pdfrom scipy import statstitani...原创 2020-02-21 22:38:19 · 2690 阅读 · 0 评论 -
python统计分析-假设检验
假设检验一、假设概念假设总体均值为μ,那么实际抽样的均值离μ越近意味着假设越合理,相反,实际抽样均值离μ越远意味着假设越不合理。其中,实际抽样结果与假设的差异“程度”可以用概率值表示,概率值越大意味着越无差异。在实际中往往认为设定一个P-value的阈值将差异程度判断为有差异或者无差异,这就是显著性水平。二、假设检验基本步骤提出原假设和备择假设确定适当的检验统计量规定显著性水平计算...原创 2020-02-21 21:04:49 · 1652 阅读 · 0 评论 -
python统计分析常用基础知识总结(python数据分析师必备)
基本的统计学概念描述性统计分析统计量均值 --表示一种数据集中趋势的量数标准差 --反应数据的离散程度,数据平均值的分散度量中位数 --一种不受极大值极小值影响、衡量集中趋势的办法分位数-- 将一个随机变量的概率分布范围分为几个等份的数值点众数 – 统计分布上具有明显集中趋势点的数值极差 —数据的最大值-数据的最小值 反应变量分布的离散程度四分位差...原创 2020-02-21 14:35:37 · 1609 阅读 · 2 评论