参考自:《python3 网络爬虫开发实战》
用正则查找
import requests, re, json
def main(offset):
#通过观察url看出只有offset后面的值在变
url = 'http://maoyan.com/board/4?offset=' + str(offset)
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
}
html = requests.get(url, headers=headers)
print(html.status_code)
#找到网页源码对应的片段,然后以此编写正则。'.*?'为非贪婪匹配。(.*?)就是想要的信息
pattern = re.compile('<dd>.*?title=(.*?)class.*?主演:(.*?)</p>.*?上映时间:(.*?)</p>.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)
items = re.findall(pattern, html.text)
print(items)
for item in items:
item = {
'title': item[0].strip(),
'star': item[1].strip(),
'releasetime': item[2].strip(),
'score': item[3] + item[4]
}
print(item)
with open('maoyan.txt', 'a', encoding='utf-8') as f:
print(type(json.dumps(item)))
f.write(json.dumps(item, ensure_ascii=False) + '\n')
#if __name__ == '__main__':
for i in range(10):
main(i*10)
用BeautifulSoup查找信息如下
#只列出了BeautifulSoup匹配信息,其他部分同上
#查看网页源码,每部电影都在<dd>...</dd>之间,所以先找到节点'dd'
for items in soup.find_all(name='dd'):
item = {
#电影名称,(a节点是dd节点的直接子节点)在a节点下且有属性'title'
'title': items.a['title'].strip(),
#演员表,相同的部分是‘主演:...’所以直接用正则进行匹配
'star': items.find(text=re.compile('主演'))[20:].strip(),
#上映时间,和演员表一样
'releasetime': items.find(text=re.compile('上映时间'))[5:].strip(),
#评分,不是直接子节点,所以用find_all,评分节点位置在第二,第三个所以要分别加[1]和[2]
'score': items.find_all(name='i')[1].string + items.find_all(name='i')[2].string,
#图像的节点名'img',因为图像在第二个img节点,所以加上[1]
'image': items.find_all(name='img')[1]['data-src']
}