Hello Stackoverflow社区!
我正在尝试构建一个Python程序,它将遍历一个目录(和所有子目录)并对所有.html,.txt和.pdf文件执行累计字数统计 . 在读取.pdf文件时,需要一些额外的(PdfFileReader)来解析文件 . 解析.pdf文件时,我收到以下错误,程序停止:
AttributeError:'PdfFileReader'对象没有属性'startswith'
如果不解析.pdf文件就完全成功了 .
代码
#!/usr/bin/python
import re
import os
import sys
import os.path
import fnmatch
import collections
from PyPDF2 import PdfFileReader
ignore = []
def extract(file_path, counter):
words = re.findall('\w+', open(file_path).read().lower())
counter.update([x for x in words if x not in ignore and len(x) > 2])
def search(path):
print path
counter = collections.Counter()
if os.path.isdir(path):
for root, dirs, files in os.walk(path):
for file in fi