数据挖掘
Jasonzz_
这个作者很懒,什么都没留下…
展开
-
基于关联分析法的美国专利技术网络挖掘(python代码 图文 超详细)
目录数据清洗Apriori结果数据清洗挑选5000多条美国专利数据进行关联分析,首先设置支持度为0.01,找寻5000多条数据中被引用次数在50条以上的专利,认为其为核心专利技术首先用excel对参考专利数据进行简单的数据清洗,并使用nltk库进行分词import pandas as pdfrom nltk import word_tokenizedata=pd.read_csv("Desktop\\python_work\\435_2.csv")txt=data['UREF:PNO']#工作原创 2020-11-19 20:42:53 · 941 阅读 · 0 评论 -
基于关联分析法的专利发明人合作关系探究(python代码 图文 超详细)
目录分词Apriori结果分词应用python中nltk包分词首先在找到国际G(物理领域)的所有专利,最终得到6000多条专利数据。接下来应用python中nltk包对专利发明人进行分词import pandas as pdfrom nltk import word_tokenize#将编码utf-8改成gbkdata=pd.read_csv("Desktop\\python_work\\diming_data.csv",encoding='gbk')txt=data['INVT']#工作簿原创 2020-11-19 19:18:50 · 1045 阅读 · 0 评论 -
基于决策树方法的专利被引影响因素研究(python代码 图文 超详细)
目录综述1.数据来源与指标选取1.1数据来源1.2指标选取2.数据清洗与转换2.1数据清洗2.2数据转换3.决策树模型构建及准确性评估与优化3.1模型构建准确性评估与优化4.分析结果综述本次研究基于决策树方法对可能影响专利被引的6个影响因素(专利申请年、专利公开年、发明人数量、专利权人数量、发明人国家、专利权人国家)与专利是否被引的潜在关系进行分析。研究发现,专利申请年是其中影响最为显著的因素,而后依次是发明人数量、专利公开年数量、专利权人数量,而其他2个指标的影响效果并不明显。1.数据来源与指标选原创 2020-10-30 14:12:27 · 1924 阅读 · 0 评论