python实现简单爬虫和数据可视化-爬取豆瓣top250电影信息

本文介绍了如何使用Python进行简单的网络爬虫,以爬取豆瓣Top250电影信息。遵循三个步骤:爬取网页、解析数据和保存到Excel。在过程中遇到403错误时,通过更换User-Agent解决。最后提醒,爬虫操作需谨慎,避免被网站限制。
摘要由CSDN通过智能技术生成

此内容全程跟着成都工业大学的李巍老师爬虫入门视频敲的代码,如有侵权删
观看的视频链接如下:李巍老师爬虫入门视频

整个爬虫可分为三个部分:

1. 爬取网页-“https://movie.douban.com/top250?start=0”

2.解析数据,打开自己要爬取的网站,进入开发者工具

3. 保存自己想要的数据到excel

4.具体代码如下,当出现403时,可以换一个"User-Agent"

#coding = utf-8
#version:python 3.6.0
#Tools:Pycharm 2018.11.27
_date_ = '2021/8/28 21:59'
_author_ = '小强'

from bs4 import BeautifulSoup #网页解析,获取数据
import re   #正则表达式,进行文字匹配
import  urllib.request, urllib.error  #制定URL,获取网页数据
import  xlwt    #进行Excel操作
import  sqlite3 #进行sqllite数据库操作

def main():
    baseurl = "https://movie.douban.com/top250?start=0"
    # #1.爬取数据
    datalist = getData(baseurl)
    savepath = ".//豆瓣电影Top250.xls"
    # print(datalist)

    #3.保存数据
    saveData(datalist,savepath)

    # askURL("https://movie.douban.com/top250")
findlink = re.compile(r'<a href="(.*?)">')#创建正则表达式对象,表示规则
#影片图片
findImgSrc = re.compile(r'<img.*src="(.*?)"',re.S) #re.S让换行符包含在字符中
#影片片名
findTitle = re.compile(r'span class="title">(.*?)</span>')
#找到评价人数
findJudge = re.compile(r'<span>(\d*)人评价</span>')
#找到概况
findInq = re.compile(r'<span class="inq">(.*)</span>')
#找到影片的相关内容
findBd = re.compile(r'<p class="">(.*)</p>',re.S)
findRating = re.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值