爬虫 --豆瓣电影TOP250

最新推荐文章于 2024-05-13 15:07:13 发布

杠杠的丶

最新推荐文章于 2024-05-13 15:07:13 发布

阅读量315

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/laosiji150214/article/details/108155795

版权

#-*- codeing = utf-8 -*-
#@Time : 2020/6/24 9:44
#@Author : Mr.zhou
#@File : douban.py
#@Software: PyCharm


from bs4 import BeautifulSoup  # 网页解析，获取数据
import re  # 正则表达式，进行文字匹配
import urllib.request, urllib.error  # 制定URL，获取网页数据
import xlwt  # 进行excel操作
import sqlite3  # 进行SQLite数据库操作


def main():
    baseurl = "https://movie.douban.com/top250?start="
    # 1.爬取网页
    datalist = getData(baseurl)
    # savepath = "豆瓣电影Top250.xls"
    dbpath = "movie.db"
    # 3.保存数据
    # saveData(datalist,savepath)
    saveData2DB(datalist, dbpath)

    # askURL("https://movie.douban.com/top250?start=")


# 影片详情链接的规则
findLink = re.compile(r'<a href="(.*?)">')  # 创建正则表达式对象，表示规则（字符串的模式）
# 影片图片
findImgSrc = re.compile(r'<img.*src="(.*?)"', re.S)  # re.S 让换行符包含在字符中
# 影片片名
findTitle = re.compile(r'<span class="title">(.*)</span>')
# 影片评分
findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
# 找到评价人数
findJudge = re.compile(r'<span>(\d*)人评价</span>')
# 找到概况
findInq = re.compile(r'<span class="inq">(.*)</span>')
# 找到影片的相关内容
findBd = re.compile(r'<p class="">(.*?)</p>', re.S)


# 爬取网页
def getData(baseurl):
    datalist = []
    for i in range(0, 10):  # 调用获取页面信息的函数，10次
        url

最低0.47元/天解锁文章

杠杠的丶

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
爬虫 --豆瓣电影TOP250

#-*- codeing = utf-8 -*-#@Time : 2020/6/24 9:44#@Author : Mr.zhou#@File : douban.py#@Software: PyCharmfrom bs4 import BeautifulSoup # 网页解析，获取数据import re # 正则表达式，进行文字匹配import urllib.request, urllib.error # 制定URL，获取网页数据import xlwt # 进行excel操作i
复制链接

扫一扫