- 1、本周工作主要是进行新的比赛,首先做的是对数据集的分析。刚开始看到数据集不只是一个表格感到有点麻烦,但是看到几个数据集之中的数据之后,我还是只是选择一个base.csv文件进行训练,对于base集,
- 数据集1:base_info.csv
包含数据集7和8中涉及到的所有企业的基本信息,每一行代表一个企业的基本数据,每一行有33列,其中id列为企业唯一标识,列之间采用“,”分隔符分割。
数据格式如下:
[id:企业唯一标识, oplocdistrict:行政区划代码, industryphy:行业类别代码, industryco:行业细类代码, dom:经营地址, opscope:经营范围, enttype:企业类型, enttypeitem:企业类型小类, opfrom:经营期限起, opto:经营期限止, state:状态, orgid:机构标识, jobid:职位标识, adbusign:是否广告经营, townsign:是否城镇, regtype:主题登记类型, empnum:从业人数, compform:组织形式, parnum:合伙人数, exenum:执行人数, opform:经营方式, ptbusscope:兼营范围, venind:风险行业, enttypeminu:企业类型细类, midpreindcode:中西部优势产业代码, protype:项目类型, oploc:经营场所, regcap:注册资本(金), reccap:实缴资本, forreccap:实缴资本(外方), forregcap:注册资本(外方), congro:投资总额, enttypegb:企业(机构)类型]
有:
RangeIndex: 24865 entries, 0 to 24864
Data columns (total 33 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 id 24865 non-null object
1 oplocdistrict 24865 non-null int64
2 industryphy 24865 non-null object
3 industryco 24864 non-null float64
4 dom 24865 non-null object
5 opscope 24865 non-null object
6 enttype 24865 non-null int64
7 enttypeitem 16651 non-null float64
8 opfrom 24865 non-null object
9 opto 8825 non-null object
10 state 24865 non-null int64
11 orgid 24865 non-null int64
12 jobid 24865 non-null int64
13 adbusign 24865 non-null int64
14 townsign 24865 non-null int64
15 regtype 24865 non-null int64
16 empnum 19615 non-null float64
17 compform 10631 non-null float64
18 parnum 2339 non-null float64
19 exenum 1378 non-null float64
20 opform 9000 non-null object
21 ptbusscope 0 non-null float64
22 venind 8437 non-null float64
23 enttypeminu 7270 non-null float64
24 midpreindcode 0 non-null float64
25 protype 34 non-null float64
26 oploc 24865 non-null object
27 regcap 24674 non-null float64
28 re