有许多HTML页面被构造为一系列这样的组:
Keywords/Category:
"keyword_a, keyword_b"
如何从每个页面中分别提取关键字?我试过使用BeautifulSoup,但没有成功.我只编写了打印组标题的程序(在< b>和< / b>之间).
from bs4 import BeautifulSoup
from urllib2 import urlopen
import re
html_doc = urlopen('https://some.page.org/2018/1234').read()
soup = BeautifulSoup(html_doc)
for link in soup.find_all('a'):
print 'https://some.page.org'+link.get('href')
for node in soup.findAll('b'):
print ''.join(node.findAll(text=True))
解决方法:
如果不知道实际的源代码格式,我无法测试,但似乎你想要< p>标签文字vaue:
for node in soup.findAll('p'):
print(node.text)
# or: keywords = node.text.split(', ')
# print(keywords)
标签:python,beautifulsoup,web-crawler,html
来源: https://codeday.me/bug/20190522/1152472.html