基于关联分析法的美国专利技术网络挖掘(python代码 图文 超详细)
目录数据清洗Apriori结果数据清洗挑选5000多条美国专利数据进行关联分析,首先设置支持度为0.01,找寻5000多条数据中被引用次数在50条以上的专利,认为其为核心专利技术首先用excel对参考专利数据进行简单的数据清洗,并使用nltk库进行分词import pandas as pdfrom nltk import word_tokenizedata=pd.read_csv("Desktop\\python_work\\435_2.csv")txt=data['UREF:PNO']#工作