自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 python数据处理系列之数据选择

常规的数据选择包括行选择、列选择、行列同时选择三种方式。1、选择某一列或某几列(1)传入列名选择数据-普通索引import numpy as npimport pandas as pddf = pd.read_csv(r'D:\workspace\test.csv')df.head()#通过列名选择数据df['客户姓名']df[['订单编码','客户姓名','性别']](2)传入列位置选择数据-位置索引iloc后的方括号中逗号之前的部分表示要获取的行的位置,输入一个冒号,不输入任何数

2020-09-16 22:49:41 1037

原创 python数据处理系列之熟悉数据

1、利用head()预览前几行import numpy as npimport pandas as pddf = pd.read_csv(r'C:\users\desktop\test.csv')df #全部数据df.head()#默认展示前5行df.head(2)#只展示前2行2、利用shape获取数据表的大小df.shape #以元组形式返回行、列数,例如(4,4),即四行四列。3、利用info获取数据类型df.info() #查看数据表中的数据类型4、利用describe获

2020-09-14 23:20:48 241

原创 python数据处理系列之读写csv数据

python数据处理系列之读写csv数据导入csv文件pandas中导入csv数据用的方法是read_csv()import pandas as pddf = pd.read_csv(r'c:\users\desktop\test.csv')指明分隔符。read_csv()默认文件中的数据都是以逗号分隔,当需要人为指定分隔符时,采用sep = ’ 符号’形式。常见的分隔符号包括逗号,空格,制表符(\t)等同样导出数据时候,如果需要指定分隔符,例如用‘/t’,则指定sep = '\t’

2020-09-07 22:35:36 650

原创 python数据处理系列之读写Excel数据

python数据处理系列之读写Excel数据读数据主要用到的就是pandas中的read_x()方法,x表示待导入的文件的格式。导入Excel文件read_excel()代码示例:import pandas as pddf = pd.read_excel(r'C:\users\desktop\test.xlsx')#df = pd.read_excel('C:\\users\\desktop\\test.xlsx')#df = pd.read_excel('C:/users/deskto

2020-09-06 22:27:07 686

原创 数据分析师系列课程 数据分布

本节分享主要是关于描述数据分布的特征,学习笔记如下:数据的分布描述数据分布包括数据的集中趋势,离中趋势,偏态和峰态。集中趋势集中趋势是一组平均指标,它反映了总体的一般水平或分布,测定集中趋势的平均指标包括:平均数、中位数和众数。平均数包括简单平均数(均值),加权平均数和几何平均数。平均数的特点:平均数是集中趋势最常用的测量值;它是一组数据的均衡点所在;平均数容易受极端值...

2019-02-17 20:32:50 553

原创 数据分析师课程 图表的类型与作用

说明:文章中所用图来源于英盛网数据分析师基础课程,同时以下内容是听课笔记,仅供大家参考学习。前言:图表可达成的目标包括展示比较、展示分布、展示联系和展示构成展示比较展示比较,包括基于分类的比较和基于时间的比较。基于分类的比较一般横轴为各个分类,基于时间的比较一般横轴为各个时间点。基于分类的比较(1)不等宽柱形图(多见于外企报表)适用于多个项目或主体在两个维度上(营业额和增长率)...

2019-02-17 15:09:16 1009

原创 数据分析师系列课程 统计学基础1

基本概念1、概率:描述某件事情出现的可能性的大小;2、概率与机会的关系:概率描述了某件事情发生的机会的多少,0-1之间;3、条件概率:在某种条件或者信息下对事件发生的可能性大小称为条件概率;4、相关事件:如果几个事件互相有影响,则为相关事件,即一件事件的发生与否会影响另一件事件的发生概率;5、独立事件:如果几个事件互不影响,则为独立事件,即无论其他事件发生与否,某个事件的发生概率保持不变...

2019-01-22 14:35:06 700

原创 数据分析师系列课程 VLOOKUP函数

前言:立个flag,要学习完整套数据分析师课程,顺便每次写好笔记,此笔记为连载,欢迎监督,互相学习,共同进步。数据分析师系列课程包括excel重要部分,统计学部分,可视化工具Tableau,数据挖掘与分析应用以及几大案例,如电商数据化运营,竞品分析实战和网站流量分析。第一部分EXCEL1、Excel之vlookup函数(1)函数结构vlookup(参数1,参数2,参数3,参数4)参数1:...

2019-01-22 11:13:27 529

翻译 Hive学习笔记1

**第一章 Hive基本概念**1.1什么是hivehive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化为mapreduce程序,如下图所示:(1)hive处理的数据存储在HDFS(2)hive分析数据底层的实现是MapReduce(3)执行程序运行在yarn上1.2hive的优缺点1.2.1 优点(...

2019-01-21 16:30:40 194

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除