我们选取一篇文献,将文献PDF转换成图片,然后采用pytesseract 实现图片文字识别。
import requests
import pdf2image
import pytesseract
pdf = requests.get('https://arxiv.org/pdf/2110.03526.pdf')
doc = pdf2image.convert_from_bytes(pdf.content)
# Get the article text
article = [
我们选取一篇文献,将文献PDF转换成图片,然后采用pytesseract 实现图片文字识别。
import requests
import pdf2image
import pytesseract
pdf = requests.get('https://arxiv.org/pdf/2110.03526.pdf')
doc = pdf2image.convert_from_bytes(pdf.content)
# Get the article text
article = [