python实现简单爬虫和数据可视化-爬取豆瓣top250电影信息

最新推荐文章于 2024-08-08 09:00:00 发布

力学猿

最新推荐文章于 2024-08-08 09:00:00 发布

阅读量2.3k

点赞数 2

分类专栏： python 文章标签： python 爬虫正则表达式

本文链接：https://blog.csdn.net/Youngist/article/details/120084781

版权

本文介绍了如何使用Python进行简单的网络爬虫，以爬取豆瓣Top250电影信息。遵循三个步骤：爬取网页、解析数据和保存到Excel。在过程中遇到403错误时，通过更换User-Agent解决。最后提醒，爬虫操作需谨慎，避免被网站限制。

摘要由CSDN通过智能技术生成

此内容全程跟着成都工业大学的李巍老师爬虫入门视频敲的代码，如有侵权删
观看的视频链接如下：李巍老师爬虫入门视频

整个爬虫可分为三个部分：

1. 爬取网页-“https://movie.douban.com/top250?start=0”

2.解析数据，打开自己要爬取的网站，进入开发者工具

3. 保存自己想要的数据到excel

4.具体代码如下，当出现403时，可以换一个"User-Agent"

#coding = utf-8
#version:python 3.6.0
#Tools:Pycharm 2018.11.27
_date_ = '2021/8/28 21:59'
_author_ = '小强'

from bs4 import BeautifulSoup #网页解析，获取数据
import re   #正则表达式，进行文字匹配
import  urllib.request, urllib.error  #制定URL，获取网页数据
import  xlwt    #进行Excel操作
import  sqlite3 #进行sqllite数据库操作

def main():
    baseurl = "https://movie.douban.com/top250?start=0"
    # #1.爬取数据
    datalist = getData(baseurl)
    savepath = ".//豆瓣电影Top250.xls"
    # print(datalist)

    #3.保存数据
    saveData(datalist,savepath)

    # askURL("https://movie.douban.com/top250")
findlink = re.compile(r'<a href="(.*?)">')#创建正则表达式对象，表示规则
#影片图片
findImgSrc = re.compile(r'<img.*src="(.*?)"',re.S) #re.S让换行符包含在字符中
#影片片名
findTitle = re.compile(r'span class="title">(.*?)</span>')
#找到评价人数
findJudge = re.compile(r'<span>(\d*)人评价</span>')
#找到概况
findInq = re.compile(r'<span class="inq">(.*)</span>')
#找到影片的相关内容
findBd = re.compile(r'<p class="">(.*)</p>',re.S)
findRating = re.