利用python爬取豆瓣最受欢迎的影评50条的相关信息,包括标题,作者,影片名,影片详情链接,推荐级,回应数,影评链接,影评,有用数这9项内容,然后将爬取的信息写入Excel表中。具体代码如下:
#!/usr/bin/python
# -*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf8')
from bs4 import BeautifulSoup
import re
import urllib2
import xlwt
# 得到页面全部内容
def askURL(url):
request = urllib2.Request(url) # 发送请求
try:
response = urllib2.urlopen(request) # 取得响应
html = response.read() # 获取网页内容
# print html
except urllib2.URLError, e:
if hasattr(e, "code"):
print e.code
if hasattr(e, "reason"):
print e.reason
return html
# 获取相关内容
def getData(baseurl):
# 找到评论标题
pattern_title = re.compile(r'<a href=".*/review/\d+