目录
综述
本次研究基于决策树方法对可能影响专利被引的6个影响因素(专利申请年、专利公开年、发明人数量、专利权人数量、发明人国家、专利权人国家)与专利是否被引的潜在关系进行分析。研究发现,专利申请年是其中影响最为显著的因素,而后依次是发明人数量、专利公开年数量、专利权人数量,而其他2个指标的影响效果并不明显。
1.数据来源与指标选取
1.1数据来源
本研究选取美国专利号为43518开头的专利数据作为研究对象,获得专利数据1507条,经过数据清理后得到454条标准化数据。
1.2指标选取
根据可能对专利被引产生影响的因素列表,拟定决策树的分析指标共6个,分别是:专利申请年PATN:APD、专利公开年PATN:ISD、发明人数量INVTSUM、专利权人数量ASSGSUM、发明人国家INVT:CNT、专利权人国家ASSG:CNT,下表是描述统计。
2.数据清洗与转换
2.1数据清洗
data.isnull().any(axis=0) //查看空值
data.isnull().any(axis=1)//判断数据行中是否存在缺失值
data.loc[data.isnull().any(axis=1)]//定位缺失值所在行
data3=data.dropna()
data//直接删除空值所在行
data_null_0=data.fillna(0,inplace=False