python爬取BT之家特定频道前5页电影信息(小白操作)
想要爬的网页如下,希望得到BT之家恐怖频道的电影信息,并存档xls
代码如下
import requests,openpyxl
wb=openpyxl.Workbook()
#创建工作薄
sheet=wb.active
#获取工作薄的活动表
sheet.title='horror'
#工作表重命名
sheet['A1'] ='电影信息' #加表头,给A1单元格赋值
from bs4 import BeautifulSoup
#引入request和bs
for x in range(5):
url='http://www.7btjia.com/forum-index-fid-1-typeid1-0-typeid2-164-typeid3-0-typeid4-0-page-'+str(x+1)+'.htm'
#观察网站翻页结构(此处在Elements用网页的底部页码导航定位代码处,观察不同页码的网址规律)
headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}
res=requests.get(url,headers=headers)