数据分析
木白^0^端墨
热爱学习,超越自我
展开
-
数据分析项目实战:电影数据分析
一、项目背景电影公司制作一部新电影推向市场时,要想获得成功,通常要了解电影市场趋势,观众 喜好的电影类型,电影的发行情况,改编电影和原创电影的收益情况,以及观众喜欢什么样的内容本案例来源于 kaggle 上的 TMDB 5000 Movie Dataset 数据集,为了探讨电影数据可视化, 为电影的制作提供数据支持,主要研究以下几个问题:(1)电影类型如何随着时间的推移发生变化的?(2)电影类型与利润的关系?(3)Universal 和 Paramount 两家影视公司的对比情况如何?(4)改编原创 2020-08-26 09:00:29 · 21182 阅读 · 17 评论 -
Pyecharts 可视化
一、Pyecharts 认识Pyecharts 是一个用于生成 Echarts 图表的类库Echarts 是百度开源的一个数据可视化 JS 库,主要用于数据可视化,Pyecharts 是一 个用于生成 Echarts 图表的类库。实际上就是 Echarts 与 Python 的对接使用 Pyecharts 可以生成独立的网页,也可以在 flask , Django 中集成使用安装:pip install pyecharts==1.5二、Pyecharts图表绘制准备1、全局配置项全局配置项可通原创 2020-08-25 09:50:02 · 2351 阅读 · 0 评论 -
利用 Pandas 进行数据处理
一、数据清洗1、检测与处理异常值异常值是指数据中个别值的数值明显偏离其余的数值,有时也称为离群点,检测异常值 就是检验数据中是否有录入错误以及是否含有不合理的数据异常值的存在对数据分析十分危险,如果计算分析过程的数据有异常值,那么会对结果 会产生不良影响,从而导致分析结果产生偏差乃至错误比如在分析银行欺诈案例时,核心就是要发现异常值,这个时候异常值对我们是有用的,再比如,在统计某个城市的平均收入的时候,有人月收入是好几个亿,这个时候这个人就是 一个异常值,这个异常值会拉高城市的整体平均收入,因此可能原创 2020-08-25 09:49:32 · 1880 阅读 · 1 评论 -
利用 Pandas 进行数据处理
一、认识数据处理为什么要预处理数据?1、现实世界的数据是“肮脏的”——数据多了,什么问题都会出现不完整的:缺少属性值,缺少感兴趣的属性,或仅包含聚集数据, 如:e.g., Occupation=“”含噪声的:包含错误或者“孤立点”, e.g., Salary=“-10”不一致的:在编码或者命名上存在差异,E.g. Age=“42” Birthday=“03/07/1997” 如:等级代码 前面“1,2,3”, 后面“A, B, C”2、没有高质量的数据,就没有高质量的挖掘结果高质量的决策原创 2020-08-25 09:48:54 · 2652 阅读 · 0 评论 -
Pandas进阶
一、Pandas 的分组聚合分组聚合原理:1、使用 groupby 方法进行分组聚合分组:该方法提供的是分组聚合步骤中的拆分功能,能根据索引或字段对数据进行分组。其常 用参数与使用格式如下DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, **kwargs)groupby 参数说明参数说明by接收 list,str原创 2020-08-25 09:48:17 · 417 阅读 · 0 评论 -
Pandas 基础
一、对Pandas库认识pandas(panel data & data analysis),是基于 numpy(提供高性能的矩阵运算)专门用于数据分析的工具,是一个强大的分析结构化数据(表格数据)的工具集,能够用于数 据挖掘和数据分析,同时也提供数据清洗功能1、DataFramenameagegroupstu0张某191stu1王某201stu2李某192stu3赵某182DataFrame 是 Pandas 中的一个表原创 2020-08-25 09:47:31 · 619 阅读 · 0 评论 -
Matplotlib库简介
一、Matplotlib绘制图形我们已经学习过了 NumPy 的统计分析,数据的各项指标都可以以真实的数据提供出来, 有的同学可能有疑问?我们为什么要进行可视化?而可视化在数据分析中又占什么样的地位?我们之前大致说过,可视化可以将我们的数据更加直观的表现出来,方便我们得到数据分析的结论,那么还有什么作用吗?那么我们一起来一下这一组数据观察上面这一组数据,并没有发现什么规律,但是我们可以对其进行统计指标计算,来得到:而观察统计指标中的均值、标准差,会发现整个的 x_ *、y __ * 数据的均值原创 2020-08-25 09:46:39 · 9517 阅读 · 0 评论 -
Numpy矩阵
一、矩阵创建1、使用 np.mat、np.asmatrix 创建矩阵np.mat 和 np.asmatrix 是相同的代码实现:import numpy as np# 可以使用np.mat np.asmatrix np.bmat 来创建矩阵# np.mat 和 np.asmatrix 是相同# 可以将特殊字符串转化为矩阵m1 = np.mat('1 2 3;4 5 6;7 8 9')print('m1:\n', m1)print('m1 类型:\n', type(m1)) #原创 2020-08-25 09:44:06 · 1919 阅读 · 0 评论 -
对 Numpy 认识
一、对 Numpy 认识Numpy 是用于数据科学计算的基础,不但能够完成科学计算任务,还能被用作高效地多 维数据容器。用于存储和处理大型矩阵Python 提供了一个 array 模块,和 list 不同,它直接保存数值,但是由于 Python 的 array 模块不支持多维,也没有各种运算函数Numpy 弥补了这一遗憾,Numpy 提供了一种数组对象—ndarray(下文统称数组)关于 ndarray 数组对象的认识:是一种内存连续的、存储单一数据类型的、可以存储多维数组的对象存在两种存储方原创 2020-08-25 09:43:47 · 508 阅读 · 0 评论 -
数学基础--矩阵
一、矩阵矩阵的定义:定义 1 : 由 m×n 个数 : αij(i=1,2,…,m;j=1,2,…,n)排成的 m 行 n 列的数表,(横排称为行,竖排称为列)称为 m 行 n 列矩阵,简称 m×n 矩阵,为表示它是一个整体,总是加一个括 弧,并用大写黑体字母表示它,记作这 m×n 个数称为矩阵 A 的元素,简称为元,数aij位于矩阵 A 的第 i 行第 j 列,称为矩阵 A 的(i,j)元。m×n 矩阵 A 也记作 Am×n元素是实数的矩阵称为实矩阵,元素是复数的矩阵称为复矩阵,本书中的矩原创 2020-08-25 09:43:24 · 10818 阅读 · 2 评论