java文本文档统计字数,行走目录时字数统计PDF文件

最新推荐文章于 2023-07-04 18:26:50 发布

uptbio

最新推荐文章于 2023-07-04 18:26:50 发布

阅读量376

点赞数

文章标签： java文本文档统计字数

Hello Stackoverflow社区！

我正在尝试构建一个Python程序，它将遍历一个目录(和所有子目录)并对所有.html，.txt和.pdf文件执行累计字数统计 . 在读取.pdf文件时，需要一些额外的(PdfFileReader)来解析文件 . 解析.pdf文件时，我收到以下错误，程序停止：

AttributeError：'PdfFileReader'对象没有属性'startswith'

如果不解析.pdf文件就完全成功了 .

代码

#!/usr/bin/python

import re

import os

import sys

import os.path

import fnmatch

import collections

from PyPDF2 import PdfFileReader

ignore = []

def extract(file_path, counter):

words = re.findall('\w+', open(file_path).read().lower())

counter.update([x for x in words if x not in ignore and len(x) > 2])

def search(path):

print path

counter = collections.Counter()

if os.path.isdir(path):

for root, dirs, files in os.walk(path):

for file in fi

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java文本文档统计字数,行走目录时字数统计PDF文件

Hello Stackoverflow社区！我正在尝试构建一个Python程序，它将遍历一个目录(和所有子目录)并对所有.html，.txt和.pdf文件执行累计字数统计 . 在读取.pdf文件时，需要一些额外的(PdfFileReader)来解析文件 . 解析.pdf文件时，我收到以下错误，程序停止：AttributeError：'PdfFileReader'对象没有属性'startswith'...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。