python查找html隐藏id,使用python BeautifulSoup从HTML中删除具有特定id内容的特定标记...

我得到一个建议,使用beauthoulsoup从HTML中删除具有特定id的标记。例如,删除下面的

...
是我的代码,但似乎无法正常工作:import os, re

from bs4 import BeautifulSoup

cwd = os.getcwd()

print ('Now you are at this directory: \n' + cwd)

# find files that have an extension with HTML

Files = os.listdir(cwd)

print Files

def func(file):

for file in os.listdir(cwd):

if file.endswith('.html'):

print ('HTML files are \n' + file)

f = open(file, "r+")

soup = BeautifulSoup(f, 'html.parser')

matches = str(soup.find_all("div", id="jp-post-flair"))

#The soup.find_all part should be correct as I tested it to

#print the matches and the result matches the texts I want to delete.

f.write(f.read().replace(matches,''))

#maybe the above line isn't correct

f.close()

func(file)

你能帮我检查一下哪个部分有错误的代码,也许我该怎么处理它?

非常感谢你!!在

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值