Python爬虫爬取豆瓣电影TOP250

最新推荐文章于 2024-05-02 07:00:29 发布

Auoay

最新推荐文章于 2024-05-02 07:00:29 发布

阅读量318

点赞数

文章标签： python

本文链接：https://blog.csdn.net/qq_43022709/article/details/122343205

版权

本文介绍如何使用Python进行网络爬虫，详细解析爬取豆瓣电影Top250的过程，包括请求网页、解析HTML、提取关键信息等步骤，带你了解网络爬虫的基本流程和技术要点。

摘要由CSDN通过智能技术生成


from bs4 import BeautifulSoup     #网页解析，获取数据
import re       #正则表达式，进行文字匹配
import urllib.request,urllib.error      #制定URL，获取网页数据
import xlwt     #进行excel操作
import sqlite3  #进行SQLite数据库操作



def main():
    baseurl = "https://movie.douban.com/top250?start="
    #1.爬取网页
    datalist = getData(baseurl)
    #savepath = "豆瓣电影Top250.xls"
    dbpath = "movie.db"
    #3.保存数据
    #saveData(datalist,savepath)
    saveData2DB(datalist,dbpath)

    #askURL("https://movie.douban.com/top250?start=")

#影片详情链接的规则
findLink = re.compile(r'<a href="(.*?)">')     #创建正则表达式对象，表示规则（字符串的模式）
#影片图片
findImgSrc = re.compile(r'<img.*src="(.*?)"',re.S)   #re.S 让换行符包含在字符中
#影片片名
findTitle = re.compile(r'<span class="title">(.*)</span>')
#影片评分
findRating = re.compile(r'<span class=