TypeError: sequence item 0: expected str instance, NoneType found解决办法
在学习利用pdfplumber读取PDF文本内容时,提示出现TypeError: sequence item 0: expected str instance, NoneType found错误。
分析主要是在拼接字符串.join()时出现了非str类型的None。
打开PDF文件查看后发现第一页是一个类似图片格式的页面,无法提取文字,所以返回了一个None值。
import pdfplumber
pdf = pdfplumber.open('C:\\募集说明书.PDF')
pages = pdf.pages
text_all = []
for page in pages: # 遍历pages中每一页的信息
text = page.extract_text()# 提取当页的文本内容
text_all.append(text) # 通过列表.append(