beaurifulsoup读取本地网页数据并存入csv

毕业穷狗采用了paperYY查重,查重内容是以html显示,为了方便修改论文里面重复的地方,只能先把网页内容爬出来,然后再说。
直接上代码

from bs4 import BeautifulSoup
import csv
#读取本地网页
with open('C:/Dsoftdisk/python/paper check/allreport.html', 'r',encoding='utf8')as wb_data:
    Soup = BeautifulSoup(wb_data, 'lxml')
    with open('report.csv', 'a', newline='', encoding='gb18030')as f:#写入csv 文件中
        # content = Soup.find("div", class_="Origin_text").text()   #错
        # print(content)
        write = csv.writer(f)
        i=0
        for k in Soup.find_all('td', class_='Origin_text'):     #不能选class=summary,离得太远 #指定标签
            i+=1
            ori_text=k.find('em', class_='similar').get_text()  #指定文本  与上者结合,能提取所有指定文本
            print(i)
            print(ori_text)
            write.writerow([ori_text])
    f.close()

结果展示:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值