背景:
最近从某个数据网站获取到一份关于公司诉讼案件的数据表,在这里和大家分享一下我的分析方法。
数据清洗:
首先我们看一下数据信息,在这里我们需要以时间列作为索引,并把不需要的数据进行删除。
data = pd.read_csv(r'E:\DataAnalysis\illegal_company.csv')
data.head(2)
# 将立案时间类型转换为datetime
data['立案时间'] = pd.to_datetime(data['立案时间'])
#设置索引,以立案时间作为索引
df = data.set_index('立案时间',drop = False)
#进行数据清洗活动,删除不需要的列数据
df.drop(['生效法律文书确定的义务','计数','更多电话','更多邮箱','参保人数','曾用名','所属区县','法定代表人','组织机构代码'],axis = 1,inplace= True)
df.drop(df.columns[[9,10]],axis = 1,inplace= True) #删除第9.10列数据
df.info()
数据分析:
1、公司诉讼案件数排名前10的省份、占比
province = df['所属省份'].dropna()
province_top10 = province.value_counts().nlargest(10)
province_top10
#绘制条形图,看下立案最多的10个省市
from pyecharts import Bar
bar = Bar("立案最多的10个省市", width=700)
bar.add("", province_top10.index, province_top10.values, is_stack=True, is_label_show=True,
bar_category_gap='40%', label_color = ['#130f40'],
legend_text_size=18,xaxis_label_textsize=18,yaxis_label_textsize=18)
bar.render('立案最多的10个省市.html')
bar
#绘制饼状图
from pyecharts import Pie
pie = Pie("各省市案件比例")
pie.add('', province_top10_pct.index,province_top10_pct.values,is_legend_show=False,is_label_show=True)
pie.render('各省市案件比例.html')
pie
2、从数据中可以看出,广东省的案件最多且比例最大,这里我们单独分析一下广东省的城市分布情况。
#查看一下立案事件最多的广东省的城市分布
city = df.loc[df['所属省份'] == '广东省','所属城市'].dropna()
city_top10 = city.value_counts().nlargest(10)
city_top10
#绘制条形图,查看广东省立案最多的10个城市
from pyecharts import Bar
bar = Bar("广东省立案最多的10个城市", width=700)
bar.add("", city_top10.index, city_top10.values, is_stack=True, is_label_show=True,
bar_category_gap='40%',
legend_text_size=18,xaxis_label_textsize=18,yaxis_label_textsize=18)
bar.render('广东省立案最多的10个城市.html')
bar
#绘制饼状图,查看各城市案件比例
from pyecharts import Pie
pie = Pie("各城市案件比例")
pie.add('', city_top10_pct.index,city_top10_pct.values,is_legend_show=False,is_label_show=True)
pie.render('各城市案件比例.html')
pie
3、案件纠纷最多的前10家公司
#看看一共有多少公司被有法律纠纷
num= len(df['被执行人'].unique())
num
#看下哪些案件纠纷最多的前10家公司
events_top10 = df['被执行人'].value_counts().nlargest(10)
#绘制条形图,查看广东省立案最多的10家公司是哪些?
from pyecharts import Bar
bar = Bar("案件纠纷最多的前10家公司", width=700)
bar.add("", events_top10.index, events_top10.values, is_stack=True, is_label_show=True,
bar_category_gap='40%',
legend_text_size=18,xaxis_label_textsize=18,yaxis_label_textsize=18)
bar.render('案件纠纷最多的前10家公司.html')
bar
4、深圳哪些区执行的案件数量排名、占比
#看下执行法院的分布情况
court_top10 = df['执行法院'].value_counts().nlargest(10)
court_top10
#执行案件前10名的法院比例
court_top10_pct = np.round(court_top10 / court_top10.sum(),2) *100
#court_top10_pct =court_top10 / court_top10.sum()
court_top10_pct
#执行法院占比
from pyecharts import Pie
pie = Pie("各执行法院占比")
pie.add('', court_top10_pct.index,court_top10_pct.values,is_legend_show=False,is_label_show=True)
pie.render('各执行法院占比.html')
pie
5、诉讼案件履行情况,看案件履行和未履行的数量
df['履行情况'].value_counts()
#处理案件数的月分布情况
bar = Bar("案件履行情况", width=700)
bar.add("", df['履行情况'].value_counts().index, df['履行情况'].value_counts().values, is_stack=True, is_label_show=True,
bar_category_gap='40%',
legend_text_size=18,xaxis_label_textsize=18,yaxis_label_textsize=18)
bar.render('案件履行情况.html')
bar
总结:以上是对数据分析的一部分内容,剩余部分因为隐私、缺陷问题就不再进行分享,希望能帮助到大家,和大家一起进步。