毕业穷狗采用了paperYY查重,查重内容是以html显示,为了方便修改论文里面重复的地方,只能先把网页内容爬出来,然后再说。
直接上代码
from bs4 import BeautifulSoup
import csv
#读取本地网页
with open('C:/Dsoftdisk/python/paper check/allreport.html', 'r',encoding='utf8')as wb_data:
Soup = BeautifulSoup(wb_data, 'lxml')
with open('report.csv', 'a', newline='', encoding='gb18030')as f:#写入csv 文件中
# content = Soup.find("div", class_="Origin_text").text() #错
# print(content)
write = csv.writer(f)
i=0
for k in Soup.find_all('td', class_='Origin_text'): #不能选class=summary,离得太远 #指定标签
i+=1
ori_text=k.find('em', class_='similar').get_text() #指定文本 与上者结合,能提取所有指定文本
print(i)
print(ori_text)
write.writerow([ori_text])
f.close()
结果展示: