豆瓣电影top250爬虫概况

最新推荐文章于 2024-08-08 14:47:02 发布

isyangwei

最新推荐文章于 2024-08-08 14:47:02 发布

阅读量792

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/CAUC_yangxiao/article/details/108951837

版权

Python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

该博客介绍了如何使用Python进行豆瓣电影Top250的爬虫项目，包括利用urllib、re、BeautifulSoup等库抓取和解析网页数据，以及使用xlwt和sqlite3库分别实现Excel和SQLite数据库的数据存储。内容涵盖了网页抓取、正则表达式解析和数据持久化两个主要步骤。

摘要由CSDN通过智能技术生成

豆瓣爬虫概况总结

目的

爬取豆瓣top250电影的详细信息：

电影名称
电影外文名称
电影详情
电影评分
电影评价数目
导演/主演
概述(其中的一句话描述)

项目代码

工具

python3.6.6

urllib库(python内置的http请求库)

re库(正则表达式，进行网页信息的筛选)

bs4库(BeautifulSoup，将获取的网页内容转化成document树，方便遍历取数据)

xlwt库(操作Excel表格，爬取数据进行持久化存储)

sqllit3库(sqllit数据库，对数据持久化存储的第二种方式)

import re
import urllib.request
import urllib.parse
from bs4 import BeautifulSoup
import xlwt
import sqlite3

项目整体设计

抓取网页
网页数据解析
存储数据

爬取网页

#抓取网页
def getData(baseurl):
    #创建一个request Header，伪装成浏览器
    header = {
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36"
    }
    req = urllib.request.Request(baseurl,headers=header)
    #爬取当前网页内容
    response = urllib.request.urlopen(req)
    #返回抓取的网页内容
    return response.read().decode("utf-8")