beaurifulsoup读取本地网页数据并存入csv

最新推荐文章于 2024-04-03 21:12:43 发布

mr_xinL

最新推荐文章于 2024-04-03 21:12:43 发布

阅读量403

点赞数

分类专栏： office 文章标签： python

本文链接：https://blog.csdn.net/mr_xinL/article/details/104927545

版权

office 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

毕业穷狗采用了paperYY查重，查重内容是以html显示，为了方便修改论文里面重复的地方，只能先把网页内容爬出来，然后再说。
直接上代码

from bs4 import BeautifulSoup
import csv
#读取本地网页
with open('C:/Dsoftdisk/python/paper check/allreport.html', 'r',encoding='utf8')as wb_data:
    Soup = BeautifulSoup(wb_data, 'lxml')
    with open('report.csv', 'a', newline='', encoding='gb18030')as f:#写入csv 文件中
        # content = Soup.find("div", class_="Origin_text").text()   #错
        # print(content)
        write = csv.writer(f)
        i=0
        for k in Soup.find_all('td', class_='Origin_text'):     #不能选class=summary，离得太远 #指定标签
            i+=1
            ori_text=k.find('em', class_='similar').get_text()  #指定文本  与上者结合，能提取所有指定文本
            print(i)
            print(ori_text)
            write.writerow([ori_text])
    f.close()

结果展示：
在这里插入图片描述