爬虫代码!

m0_68990031

已于 2022-10-08 16:32:01 修改

阅读量87

点赞数

文章标签： python

于 2022-10-08 11:16:42 首次发布

本文链接：https://blog.csdn.net/m0_68990031/article/details/127205350

版权

使用Python爬取豆瓣Top250电影信息，通过BeautifulSoup解析HTML，提取电影链接、图片、名称、评分、评价人数和简介，最终将数据保存到Excel文件。

摘要由CSDN通过智能技术生成

# 爬取豆瓣Top250电影信息
import bs4
import re
import urllib.request
import urllib.error
import xlwt


# 创建正则表达式对象
findLink = re.compile(r'<a href="(.*)">')
findImgsrc = re.compile(r'<img.*src="(.*)" width="100"/>', re.S)   # re.S:换行符包括在内
findTitle = re.compile(r'<span class="title">(.*)</span>')
findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
findNum = re.compile(r'<span>(\d*)人评价</span>')
findInq = re.compile(r'<span class="inq">(.*)</span>')
findBd = re.compile(r'<p class="">(.*?)</p>', re.S)


# 主函数
def main():
    baseurl = "https://movie.douban.com/top250?start="
    datalist = getData(baseurl)
    savepath = "豆瓣电影Top250.xls"
    saveData(datalist, savepath)


def getD