网页处理——BeautifulSoup处理网页入门实践
1、去除HTML文档中的注释
在处理html的过程中我们发现,注释也会被作为一个子节点,但是这不是我们需要的
在处理html的过程中我们发现,注释也会被作为一个子节点,但是这不是我们需要的
from bs4 import BeautifulSoup, Comment
soup = BeautifulSoup(html,"lxml")
comments = soup.findAll(text=lambda text:isinstance(text, Comment))
[comment.extract() for comment in comments]
print soup
2、将soup对象转换为字符串
str()一般是将数值转成字符串。
str()一般是将数值转成字符串。
repr()是将一个对象转成字符串显示,注意只是显示用,有些对象转成字符串没有直接的意思。如list,dict使用str()是无效的,但使用repr可以,这是为了看它们都有哪些值,为了显示之用。
repr()是将一个对象转成字符串显示,注意只是显示用,有些对象转成字符串没有直接的意思。如list,dict使用str()是无效的,但使用repr可以,这是为了看它们都有哪些值,为了显示之用。