爬虫爬取豆瓣电影排行，保存到excel和SQLite

最新推荐文章于 2024-03-15 07:49:35 发布

SupV

最新推荐文章于 2024-03-15 07:49:35 发布

阅读量1.3k

点赞数 1

文章标签： python 开发语言后端

本文链接：https://blog.csdn.net/m0_57411450/article/details/121442369

版权

# -*- coding = utf-8 -*-
# @Time    : 2021/11/18 19:54
# @Author  : Vv


from bs4 import BeautifulSoup       # 网页解析，获取数据
import re                           # 正则表达式，进行文字匹配
import urllib.request, urllib.error  # 制定url 获取网页数据
import xlwt                         # 进行excel操作
import sqlite3                      # 进行SQLite数据库操作


def main():
    baseurl = "https://movie.douban.com/top250?start="
    # 1、爬取网页
    datalist = getData(baseurl)
    savepath = "豆瓣电影Top250.xls"
    dbpath = "movie.db"
    # 3、保存数据
    saveData(datalist, savepath)
    # saveData2Db(datalist, dbpath)

    # askURL("https://movie.douban.com/top250?start=")

# 影片详情链接的规则
findLink = re.compile(r'<a href="(.*?)">')  # 创建正则表达式对象，表示规则（字符串的模式）
# 影片图片
findImgSrc = re.compile(r'<img .*src="(.*?)"', re.S)  # re.S 让换行符包含在字符中
# 影片片名
findTitle = re.compile(r'<span class="title">(.*)</span>')
# 影片评分
findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
# 找到评价人数
findJudge = re.compile(r'<span>(\d*)人评价</span>

最低0.47元/天解锁文章

SupV

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
爬虫爬取豆瓣电影排行，保存到excel和SQLite

# -*- coding = utf-8 -*-# @Time : 2021/11/18 19:54# @Author : Vvfrom bs4 import BeautifulSoup # 网页解析，获取数据import re # 正则表达式，进行文字匹配import urllib.request, urllib.error # 制定url 获取网页数据import xlwt .
复制链接

扫一扫