基本思路:
1.读取pdf内容,存放到不同的 list
2.比较 list 的相似度
------------------------ 实现-------------------------
1.PDF 文件读取,使用库 pdfminer
def get_txt_from_pdf(path, file_name): # 获取文档对象 fp = open(os.path.join(path, file_name), "rb") # 创建一个PDF文档解释器 parser = PDFParser(fp) # PDF文档的对象 doc =