走进数据分析
文章平均质量分 77
二哥不像程序员
公众号:数据山谷
展开
-
Python|Pandas的常见操作
为什么要用PandasPandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。pandas的主要特点基于Numpy创建,继承了Numpy中优秀的特点;能够直接读取结构化数据进行操作;以类似于表格的形式呈现数据,便于观察;提供了大量的数理统计方法。Pandas的两种数据结构Series:带标签的一维同构数组;DataFrame:带标签的,大小可变的,二维异构表格。按照层级关系来说的话,可以说D原创 2020-05-13 15:03:02 · 1398 阅读 · 0 评论 -
Python|200行代码实现疫情地图
注:文末有完整代码及词库获取地址在我们每天关注着疫情变化的同时,可以看到各式各样的疫情地图,本文就让我们一起来实现一下疫情地图的制作。文中的代码均由python实现,需要准备的库如下:1.bs42.pyechart(V1,博主版本1.7.1)3.pandas库的引入import refrom bs4 import BeautifulSoupfrom urllib....原创 2020-04-01 14:53:55 · 5203 阅读 · 14 评论 -
python自动数据分析——pandas_profiling
pandas_profiling我们常用pandas中的df.describe()函数去描述数据的情况,但是不能够直观的去展示出数据的分布情况,今天要介绍的这个工具pandas_profiling就是扩展了pandas中的DataFrame并且能自动进行数据分析并生成分析报告的库。在分析过程中会得到下面的结果:要点:类型,唯一值,缺失值 分位数统计信息,例如最小值,Q1,中位数,Q3...原创 2019-10-18 10:44:02 · 3384 阅读 · 1 评论 -
数据分析基础--SQL
我们在做数据分析的工作时,会用到大量的数据,而这些数据都来自于数据库,SQL可以让我们很方便的去访问和查询数据库。作为一个数据分析师,我们需要掌握一些SQL的核心技能1.数据库什么是数据库?对于这个问题每个人都有自己的理解数据库(Database):就是一个存储数据的仓库,其本身其实是一张张表格,每张表格间又通过一定的联系连接在一起,就这样组成了一个数据库。可以这样理解数据库中最基本的元素为表(t...原创 2018-04-26 17:40:23 · 5316 阅读 · 0 评论 -
数据分析基础——R语言(图形初阶)
条形图条形图用矩形条来表示数据,条的长度与变量的值成比例,在R语言中可以使用函数barplot()来创建条形图,可以在条形图中绘制垂直和水平条,并且每个条形都可以设置成不同的颜色。R语言中创建条形图的基本语法是:barplot(H,xlab,ylab,main,names.arg,col)barplot中的参数描述如下:H表示我们用到的数据,可以是一个向量或者是一个矩阵(数值...原创 2019-07-30 10:18:08 · 1969 阅读 · 0 评论 -
数据分析基础——R语言(数据集的创建)
创建数据集进行数据操作的第一步就是创建数据集,也就是我们通常认知中的输入数据的操作。数据集通常是由数据构成的一个矩形数组,用行来表示观测,用列来表示变量。数据结构R语言中有许多用于存储数据的对象类型:标量、向量、矩阵、数组、数据框、列表等。下面来展示一下上述数据类型的输入形式:创建标量:标量指的是直含有一个元素的向量。a <- 1b <- "one"c...原创 2019-07-26 18:27:52 · 1827 阅读 · 0 评论 -
数据分析基础——R语言(处理缺失值)
进行简单的数据处理时,我们处理的基本都是完整的数据集,但是实际问题中我们经常会遇到带有缺失值的数据,处理此类数据也就显得尤为重要。处理缺失值的一般步骤首先我们列出处理缺失值的一般步骤,对整个流程有一个大致的了解。识别缺失数据; 检查导致数据缺失的原因; 删除包含缺失值的实例或用合理的数值插补缺失值。数据缺失的种类完全随机缺失(MCAR) 随机缺失(MAR) 非随机缺失(N...原创 2019-08-01 16:32:20 · 17307 阅读 · 0 评论