Python爬虫学习-豆瓣电影TOP250数据爬取（存入mongo数据库中）

最新推荐文章于 2024-05-13 15:07:13 发布

Bri0117

最新推荐文章于 2024-05-13 15:07:13 发布

阅读量2.3k

点赞数 5

分类专栏： # python爬虫文章标签： mongo 豆瓣电影定向爬虫

本文链接：https://blog.csdn.net/Bri0117/article/details/88044434

版权

本文介绍了如何使用Python爬虫爬取豆瓣电影TOP250数据，并将其存储到MongoDB数据库中。通过观察网页结构，运用正则表达式提取所需信息，然后利用pymongo库将数据保存至数据库的'movie_rank'集合中。

摘要由CSDN通过智能技术生成

利用了晚上的闲暇时间，想对正则表达式+requests进行爬虫练习，故决定对豆瓣电影top（https://movie.douban.com/top250）排名进行数据爬取。因为是简单的网络页面，所以使用requests更为方便。
爬虫的思路还是分为三步：爬取页面、提取数据、保存数据。

爬取页面

爬取的过程中并没有遇到反爬措施，所以较为页面爬取相对简单。

提取数据

通过观察每类数据的共同之处，再用正则表达式对数据进行字符匹配，从而获取数据。

保存数据

数据我是使用了mongo数据库进行存储，在之前的数据库“db”中增加了一个“movie_rank”表，在使用pymongo的方法写入数据。

原代码如下：

import re

import pymongo
import requests
from bs4 import BeautifulSoup
import bs4

def getHTMLText(url1):
    try:
        kv = {'user-agent': 'Mozilla/4.0'}
        r=requests.get(url1,headers=kv)
        #设置浏览器的类型，进行迷惑
        r.raise_for_status()
        r.encoding='utf-8'
        return r.text
    except:
        print("

最低0.47元/天解锁文章

Bri0117

关注

5
点赞
踩
22

收藏

觉得还不错? 一键收藏
2
评论
Python爬虫学习-豆瓣电影TOP250数据爬取（存入mongo数据库中）

利用了晚上的闲暇时间，想对正则表达式+requests进行爬虫练习，故决定对豆瓣电影top（https://movie.douban.com/top250）排名进行数据爬取。因为是简单的网络页面，所以使用requests更为方便。爬虫的思路还是分为三步：爬取页面、提取数据、保存数据。爬取页面爬取的过程中并没有遇到反爬措施，所以较为页面爬取相对简单。提取数据通过观察每类数据的共同之处，再用...
复制链接

扫一扫

专栏目录