python数据爬取及数据可视化分析

电影网站数据分析及可视化研究

本博客是一篇集数据爬取,存储为excel表格,将数据可视化为一体的博文,数据爬取采用request等方法,数据可视化会使用图表进行展示,有改进的地方还请大家多多指教。

数据爬取

环境配置问题

在进行数据爬取之前,需要进行一些导入
在这里插入图片描述
这些导入包括json库,requests方法等等,但是在进行导入的过程中根据计算机的差异可能会出现一些问题。我在进行安装requests的过程当中就遇到了一些问题。
在这里插入图片描述
在安装的过程当中,由于pip版本过低需要进行更新,故无法进行requests的安装。
在这里插入图片描述
但是命令提示符所给出的系统自动更新的方法却无法进行更新,那么就可以去找一个镜像源来进行安装,并且最好是国内的安装源,运行速度快,可使用清华或是豆瓣安装源进行尝试,安装成功结果如下。

在这里插入图片描述

反爬取处理(headers)

在配置好环境后,就可以找到我们需要爬取的网站对其信息进行爬取,但需注意,若非静态页面,一般的动态页面会有一些反爬取的措施,那么我们应该怎么做才能够爬取到我们想要的信息呢,其实很简单。首先我们找到需要爬取的网页:
在这里插入图片描述
鼠标右键点击审查元素,找到network——Doc——当前网址——headers,往下滑到最下面就会看到一个叫User-Agent一栏,在爬取的时候进行调用即可
在这里插入图片描述

数据获取

在这里插入图片描述获取例如影片名称列表,所在区域的影片简介,评分等等,将获取到的信息保存至csv文件中。存储示例如下:
在这里插入图片描述

数据分析

影片出现次数年份分布

进行库的导入和数据读取是每一个分析的先决条件。
在这里插入图片描述
分析数据,以柱状图显示
在这里插入图片描述
在这里插入图片描述

电影类型的数据字段分析

在这里插入图片描述
在这里插入图片描述
词云图分析
在这里插入图片描述
在这里插入图片描述

上映区间数据统计

在这里插入图片描述
在这里插入图片描述

电影评分数据分析

在这里插入图片描述
以饼状图显示:
在这里插入图片描述

小结

对于数据可视化的学习还远不应止如此,如何将数据更为直观,更为简洁,更为层次分明地展现在大家眼前,这是值得考虑的问题,对于各种环境和工具的运用,如何能够做到更为熟练和精细,是自我提升所必需的。
喜欢本博客的话记得点个赞,也记得关注一下博主哦!

  • 68
    点赞
  • 252
    收藏
    觉得还不错? 一键收藏
  • 49
    评论
爬取豆瓣电影数据集需要使用 Python 爬虫技术,具体步骤如下: 1. 安装 requests 库和 BeautifulSoup4 库 ```python pip install requests pip install beautifulsoup4 ``` 2. 发送 HTTP 请求获取页面内容 ```python import requests url = 'https://movie.douban.com/top250' response = requests.get(url) html = response.text ``` 3. 使用 BeautifulSoup 解析页面内容 ```python from bs4 import BeautifulSoup soup = BeautifulSoup(html, 'html.parser') ``` 4. 查找需要的数据并提取 ```python movies = [] for item in soup.select('.item'): movie = {} movie['title'] = item.select('.title')[0].text.strip() movie['score'] = item.select('.rating_num')[0].text.strip() movie['quote'] = item.select('.quote')[0].text.strip() movies.append(movie) ``` 5. 将数据保存到文件中 ```python import json with open('movies.json', 'w', encoding='utf-8') as f: json.dump(movies, f, ensure_ascii=False, indent=4) ``` 完整代码如下: ```python import requests from bs4 import BeautifulSoup import json url = 'https://movie.douban.com/top250' response = requests.get(url) html = response.text soup = BeautifulSoup(html, 'html.parser') movies = [] for item in soup.select('.item'): movie = {} movie['title'] = item.select('.title')[0].text.strip() movie['score'] = item.select('.rating_num')[0].text.strip() movie['quote'] = item.select('.quote')[0].text.strip() movies.append(movie) with open('movies.json', 'w', encoding='utf-8') as f: json.dump(movies, f, ensure_ascii=False, indent=4) ``` 执行完毕后,会在当前目录下生成一个名为 `movies.json` 的文件,里面包含了豆瓣电影 Top250 的电影名称、评分和简介。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 49
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值