试用了Beautifulsoup,的确是个神器。
在抓取到网页时,会出现很多不想要的内容,例如<script>
标签,利用beautifulsoup可以很容易去掉。
->
soup = BeautifulSoup('<script>a</script>Hello World!<script>b</script>')
-> [s.extract() for s in soup(‘script’)]
-> soup
Hello World!
如果有多个标签也可以:
-> [s.extract() for s in soup([‘script’, ‘iframe’])]