- 博客(5)
- 资源 (1)
- 收藏
- 关注
原创 Pandas笔记2.0
写在前面:1.生成一个series:df = pd.Series(data=[1,2,3,4], index=["a", "b", "c", "d"])display(df)print(type(df)) #Seriesprint(df.loc["b"]) #索引 2print(df.iloc[1]) #位置 22.生成一个DataFrame:df = pd.DataFrame(np.random.rand(5, 6), index=["地区1
2020-09-22 10:33:29 178
原创 pandas笔记1.0
数据分析常见方式方法数据读写数据去重数据缺失值数据过滤数据转换数据排序数据组合/分割数据分组聚合数据分析的步骤:1.数据加载2.数据提取(根据业务)3.数据清洗(代码能力,pandas)4.数据分析(商业指标,数据透视表,建模等)Series有两个基本属性:index和values【是一个定长的字典】X1=Series([1,2,3,4]) #index默认0123X2=Series(data=[1,2,3,4],index=['a','b','c','d'])pri
2020-09-19 10:50:33 76
原创 数据分析师之Hive的安装
Hadoop学习:1.完成hadoop的部署和安装正常启动/关闭Hadoop集群,并完成基准测试3.理解分布式文件系统的设计思想4.熟练操作hadoop集群创建用户:root下:useradd 用户名设置密码:passwd 用户名1.区别:完全分布式:节点超过1(虚拟机台数超过通常是3个以上)hadoop除了运行hive,还有zookeeper(通常要求节点数为奇数),hbase,spark,kylin伪分布式:用一个虚拟机,安装并启动hadoop,所有服务都在这一台虚拟机上hiv
2020-09-01 21:38:28 222
原创 业务指标
业务指标1.如何理解数据2.常用的业务指标有哪些?3.如何选择指标?1.如何理解数据每一列的含义数据分析:用户数据:用户的属性【性别、年龄、地区等】行为数据:用户做了什么【点击菜单的次数、分享量、收藏次数等】产品数据:我是卖什么的【文章标题、日期、阅读量等】2.常用的业务指标有哪些?用户数据指标行为数据指标产品数据指标2.2 行为数据指标2.3产品数据指标...
2020-09-01 21:37:23 597
原创 电商销售数据分析
1.背景与目标2.数据准备3.数据清洗4.具体目标分析5.案例结论1.背景与目标对一家全球超市4年(2011年-2014年)的零售数据进行数据分析数据分析的目标:* 分析每年销售额增长率* 各个地区分店的销售额* 销售淡旺季* 新老客户数* 利用RFM模型标记用户价值2.数据准备数据来源于数据科学竞赛平台Kaggle-https://www.kaggle.com/jr2ngb/superstore-data,总共51290条数据,24个字段。导入数据import pand
2020-09-01 15:08:39 8750 6
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人