002-爬取豆瓣电影Top250数据写入数据库二维表

个人学习爬虫的过程记录,供学习参考,欢迎各位指正

豆瓣Top250相信每一个学习爬虫的小伙伴都不陌生,因为网站结构简单明了,算是每位学习爬虫小伙伴的入门网站了

那么今天就以豆瓣Top250为例,记录一下怎么使用python将爬取的豆瓣Top250数据写入数据库~

为了提高复用率,这次把获取网页数据,爬取数据等功能用函数进行封装

一、安装pymysql库

pymysql是一个Python连接MySQL数据库的库

在Pycharm的Terminal终端处输入以下代码即可完成安装

pip install pymysql
或者
pip3 install pymysql

二、爬取网页数据

此次爬取需要用到requests发送Http请求,以及BeautifulSoup4做数据解析

那么首先引入我们需要的库:

import bs4
import pymysql
import requests
  • 编写fetch_page来抓取页面
def fetch_page(url: str) -> str:
    """
    抓取页面
    :param url: 统一资源定位符
    :return: 页面的HTML代码
    """
    resp = requests.get(
        url=url,
        headers={'User-Agent': 'baiduspider'}
    )
    return resp.text if resp.status_code == 200 else ''

该函数接收一个字符串类型的url网址参数,返回值也为字符串类型

用resp来接收requests发送的get请求

如果状态码为200,表示网页请求成功;返回请求返回的内容,反之返回空

  • 编写parse_page进行页面的数据解析
def parse_page(html_code: str):
    """
    解析页面
    :param html_c
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值