1、数据:
链接:https://pan.baidu.com/s/1xl2h1I8O8E2xvzytEuPmFQ
提取码:fcrn
2、从不同的维度分析数据:
公司维度、年龄维度、不同分数段
3、以下为具体代码:
#导入库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
#读取文件
luohu_data = pd.read_csv('./bj_luohu.csv',index_col = 'id')
#describe()展示一些基本信息
luohu_data.describe()
#### read_csv参数:dtype 可以指定整个DataFrame或各个列的数据类型;通过指定name与header,可以重命名列以及是否丢弃标题行;usecols参数允许您使用列名,位置号或可调用的方法选择文件中列的任何子集;如果指定了comment参数,则将忽略注释行。 默认情况下,空行也将被忽略,如果skip_blank_lines = False,则read_csv将不会忽略空行;index_col是read_csv中的一个参数。用来指定表格的索引值,在默认为None的时候,pandas会自动将第一列作为索引,并额外添加一列。所以大多我们会使用index_col=0
,直接将第一列作为索引,不额外添加列;
#查看下数据
luohu_data