利用Python进行数据分析
文章平均质量分 93
根据《利用Python进行数据分析》这本书学习和总结
雾重烟秋
这个作者很懒,什么都没留下…
展开
-
数据分析案例——电商平台数据集
数据来源于阿里云天池,为淘宝app平台在2014年11月18日-12月18日的数据。原创 2024-05-24 10:54:41 · 618 阅读 · 0 评论 -
第14章 数据分析案例——2012联邦选举委员会数据库
美国联邦选举委员会发布了有关政治竞选赞助方面的数据。其中包括赞助者的姓名、职业、雇主、地址以及出资额等信息。我们对2012年美国总统大选的数据集比较感兴趣。该DataFrame你可能已经想出了许多办法从这些竞选赞助数据中抽取有关赞助人和赞助模式的统计信息。我将在接下来的内容中介绍几种不同的分析工作(运用到目前为止已经学到的方法)。不难看出,该数据中没有党派信息,因此最好把它加进去。通过unique现在,通过这个映射以及Series对象的map这里有两个需要注意的地方。由于和。原创 2024-05-23 11:23:46 · 804 阅读 · 0 评论 -
第14章 数据分析案例——1880-2010年间全美婴儿姓名
2007年,一名婴儿姓名研究人员在她自己的网站上指出():近百年来,男孩名字在最后一个字母上的分布发生了显著的变化。sex year# 设置 seaborn 的默认风格sns.set()可以看出,从20世纪60年代开始,以字母"n"结尾的男孩名字出现了显著的增长。有了这个时间序列的DataFrame之后,就可以通过其plot。原创 2024-05-22 13:03:48 · 1172 阅读 · 0 评论 -
第14章 数据分析案例——MovieLens 1M数据集
本文介绍数据分析案例——MovieLens 1M数据集GroupLens Research(http://www.grouplens.org/node/73)采集了一组从20世纪90年末到21世纪初由MovieLens用户提供的电影评分数据。这些数据中包括电影评分、电影元数据(风格类型和年代)以及关于用户的人口统计学数据(年龄、邮编、性别和职业等)。基于机器学习算法的推荐系统一般都会对此类数据感兴趣。虽然我不会在本书中详细介绍机器学习技术,但我会告诉你如何对这种数据进行切片切块以满足实际需求。数据集含有来自原创 2024-05-21 22:09:17 · 1253 阅读 · 0 评论 -
第13章 Python建模库介绍
是Python进行拟合多种统计模型、进行统计试验和数据探索可视化的库。包含许多经典的统计方法,但没有贝叶斯方法和机器学习模型。线性模型,广义线性模型和健壮线性模型线性混合效应模型方差(ANOVA)方法分析时间序列过程和状态空间模型广义矩估计下面,我会使用一些基本的工具,探索Patsy公式和对象如何使用模型接口。是一个广泛使用、用途多样的Python机器学习库。它包含多种标准监督和非监督机器学习方法和模型选择和评估、数据转换、数据加载和模型持久化工具。原创 2024-05-21 15:51:28 · 973 阅读 · 0 评论 -
第12章 pandas高级应用
和其它许多开源项目一样,pandas仍然在不断的变化和进步中。和本书中其它地方一样,这里的重点是放在接下来几年不会发生什么改变且稳定的功能。为了深入学习pandas的知识,我建议你学习官方文档,并阅读开发团队发布的文档更新。我们还邀请你加入pandas的开发工作:修改bug、创建新功能、完善文档。原创 2024-05-21 10:50:11 · 833 阅读 · 0 评论 -
第11章 时间序列
函数使你能够在移动窗口上应用自己设计的数组函数。唯一要求的就是:该函数要能从数组的各个片段中产生单个值(即约简)。比如说,当我们用计算样本分位数时,可能对样本中特定值的百分等级感兴趣。与前面章节接触的数据相比,时间序列数据要求不同类型的分析和数据转换工具。在接下来的章节中,我们将学习一些高级的pandas方法和如何开始使用建模库和。原创 2024-05-20 22:06:47 · 621 阅读 · 0 评论 -
第10章 数据聚合与分组运算
掌握pandas数据分组工具既有助于数据清理,也有助于建模或统计分析工作。在第14章,我们会看几个例子,对真实数据使用groupby。在下一章,我们将关注时间序列数据。原创 2024-05-20 16:26:29 · 592 阅读 · 0 评论 -
第09章 绘图和可视化
本章的目的是熟悉一些基本的数据可视化操作,使用pandasmatplotlib,和seaborn。如果视觉显示数据分析的结果对你的工作很重要,我鼓励你寻求更多的资源来了解更高效的数据可视化。这是一个活跃的研究领域,你可以通过在线和纸质的形式学习许多优秀的资源。下一章,我们将重点放在pandas的数据聚合和分组操作上。原创 2024-05-19 11:54:10 · 1134 阅读 · 0 评论 -
第08章 数据规整:聚合、合并和重塑
现在你已经掌握了pandas数据导入、清洗、重塑,我们可以进一步学习matplotlib数据可视化。我们在稍后会回到pandas,学习更高级的分析。原创 2024-05-18 22:06:10 · 631 阅读 · 0 评论 -
第07章 数据清洗和准备
高效的数据准备可以让你将更多的时间用于数据分析,花较少的时间用于准备工作,这样就可以极大地提高生产力。我们在本章中学习了许多工具,但覆盖并不全面。下一章,我们会学习pandas的聚合与分组。原创 2024-05-18 19:25:41 · 857 阅读 · 0 评论 -
第06章 数据加载、存储与文件格式
访问数据通常是数据分析的第一步。在本章中,我们已经学了一些有用的工具。在接下来的章节中,我们将深入研究数据规整、数据可视化、时间序列分析和其它主题。原创 2024-05-18 15:41:02 · 349 阅读 · 0 评论 -
第05章 pandas入门
要使用pandasSeries和DataFrame。虽然它们并不能解决所有问题,但它们为大多数应用提供了一种可靠的、易于使用的基础。在下一章,我们将讨论用pandas读取(或加载)和写入数据集的工具。之后,我们将更深入地研究使用pandas进行数据清洗、规整、分析和可视化工具。原创 2024-05-18 09:51:09 · 408 阅读 · 0 评论