个人学习爬虫的过程记录,供学习参考,欢迎各位指正
豆瓣Top250相信每一个学习爬虫的小伙伴都不陌生,因为网站结构简单明了,算是每位学习爬虫小伙伴的入门网站了
那么今天就以豆瓣Top250为例,记录一下怎么使用python将爬取的豆瓣Top250数据写入数据库~
为了提高复用率,这次把获取网页数据,爬取数据等功能用函数进行封装
一、安装pymysql库
pymysql是一个Python连接MySQL数据库的库
在Pycharm的Terminal终端处输入以下代码即可完成安装
pip install pymysql
或者
pip3 install pymysql
二、爬取网页数据
此次爬取需要用到requests发送Http请求,以及BeautifulSoup4做数据解析
那么首先引入我们需要的库:
import bs4
import pymysql
import requests
- 编写fetch_page来抓取页面
def fetch_page(url: str) -> str:
"""
抓取页面
:param url: 统一资源定位符
:return: 页面的HTML代码
"""
resp = requests.get(
url=url,
headers={'User-Agent': 'baiduspider'}
)
return resp.text if resp.status_code == 200 else ''
该函数接收一个字符串类型的url网址参数,返回值也为字符串类型
用resp来接收requests发送的get请求
如果状态码为200,表示网页请求成功;返回请求返回的内容,反之返回空
- 编写parse_page进行页面的数据解析
def parse_page(html_code: str):
"""
解析页面
:param html_c

最低0.47元/天 解锁文章
4622

被折叠的 条评论
为什么被折叠?



