在编写针对 movie.douban.com
的用户评论的爬虫脚本时,我们需要使用合适的爬虫库来处理 HTML 页面和抽取数据。以下是使用 Python 的 BeautifulSoup
和 requests
库来获取指定电影页面中的用户评论的示例代码。
首先,确保已经安装了 beautifulsoup4
和 requests
库。你可以通过以下命令安装它们:
bashpip install beautifulsoup4 requests
然后,你可以使用以下代码编写一个简单的爬虫脚本:
pythonimport requests
from bs4 import BeautifulSoup
class DoubanCrawler:
def __init__(self, movie_url):
self.movie_url = movie_url
self.browser = requests.session()
def get_html(self, url):
return self.browser.get(url).text
def get_comments(self, page_num=1):
# 获取电影页面
movie_page_url = self.movie_url + '?sort=new&page=' + str(page_num)
html = self.get_html(movie_page_url)
soup = BeautifulSoup(html, 'lxml')
# 获取用户评论
comments = []
comment_boxes = soup.find_all('div', class_='comment-content')
for comment_box in comment_boxes:
comment_text = comment_box.find('p').text.strip()
comments.append(comment_text)
return comments
def main():
# 替换为你要爬取的电影 URL
movie_url = 'https://movie.douban.com/subject/1292052/'
crawler = DoubanCrawler(movie_url)
comments = crawler.get_comments()
for comment in comments:
print(comment)
if __name__ == '__main__':
main()
这个脚本会获取指定电影页面中的所有用户评论,并逐行打印它们。注意,在实际运行这个脚本之前,你需要替换 movie_url
变量为你要爬取的电影的 URL。此外,由于 Douban 可能会对爬虫行为做出限制,所以在高频率地爬取时需要谨慎处理,或者更换代理ip。