最新Python 分析电影《南方车站的聚会》(1)，2024年最新阿里面试题

最新推荐文章于 2024-08-24 11:00:49 发布

PDD工程师

最新推荐文章于 2024-08-24 11:00:49 发布

阅读量896

点赞数 22

分类专栏：程序员文章标签： python 学习面试

本文链接：https://blog.csdn.net/m0_61408947/article/details/138820095

版权

程序员专栏收录该内容

152 篇文章 0 订阅

订阅专栏

最后

Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习 Python 门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

👉Python所有方向的学习路线👈

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

👉Python必备开发工具👈

工欲善其事必先利其器。学习Python常用的开发软件都在这里了，给大家节省了很多时间。

👉Python全套学习视频👈

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了。

👉实战案例👈

学python就与学数学一样，是不能只看书不做题的，直接看步骤和答案会让人误以为自己全都掌握了，但是碰到生题的时候还是会一筹莫展。

因此在学习python的过程中一定要记得多动手写代码，教程只需要看一两遍即可。

👉大厂面试真题👈

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

从图中我们可以看到目前有 13 万多人评分，达到了 7.5 分，打 4 星和 3 星的居多，并非网上一些人所说的口碑两极分化（如果两级分化，应该是打 5 星和 1 星的居多吧？！）。

页面向下拉到影评位置，如下图所示：

在这里插入图片描述

我们可以看到有 5 万多条影评，目前豆瓣对查看影评数据的限制是：未登录最多可以查看 200 条数据，登录用户最多可以查看 500 条数据，我们要做的是通过 Python 爬取豆瓣 500 条影评数据，然后进行数据分析。

首先获取影片列表 URL，具体操作为：点击上图中全部 52846 条，进入影评列表首页，如下图所示：

在这里插入图片描述

但我们发现一个问题，该 URL 参数中并没有行号等信息（实现翻页需要），这个问题我们只需点击后页按钮即可看到，结果如图所示：

在这里插入图片描述

现在我们可以从 URL 中看到这些信息了，因 start 参数为变量，我们将上面 URL 修改为：https://movie.douban.com/subject/27668250/comments?start=%d&limit=20&sort=new_score&status=P 作为爬取开始 URL。

接着我们看一下如何实现登陆，首先打开登录页，如下图所示：

在这里插入图片描述

我们先在手机号/邮箱和密码输入框处随意输入（不要输入正确的用户名和密码），再按 F12 键打开开发者工具，最后点击登录豆瓣按钮，结果如图所示：

在这里插入图片描述

我们点击上面图中所示 basic 项，点击后结果如图所示：

在这里插入图片描述

此时可以看到 Request URL（登录所需 URL）和 Form Data 项，这两项是我们登录时需要的，当然我们还需 User-Agent，点击上面图中所示的 Request Headers 项即可看到，如图所示：

在这里插入图片描述

所需要的东西都找好了，接下来就是具体实现了，豆瓣登录和影评数据爬取的具体实现如下所示：

import requests

import time

import random

from lxml import etree

import csv

新建 csv 文件

csvfile = open(‘南方车站的聚会.csv’,‘w’,encoding=‘utf-8’,newline=‘’)

writer = csv.writer(csvfile)

表头

writer.writerow([‘时间’,‘星级’,‘评论内容’])

def spider():

url = ‘https://accounts.douban.com/j/mobile/login/basic’

headers = {“User-Agent”: ‘Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)’}

comment_url = ‘https://movie.douban.com/subject/27668250/comments?start=%d&limit=20&sort=new_score&status=P’

data = {

‘ck’: ‘’,

‘name’: ‘自己的用户名’,

‘password’: ‘自己的密码’,

‘remember’: ‘false’,

‘ticket’: ‘’

}

session = requests.session()

session.post(url=url, headers=headers, data=data)

总共 500 条，每页 20 条

for i in range(0, 500, 20):

获取 HTML

data = session.get(comment_url % i, headers=headers)

print(‘第’, i, ‘页’, ‘状态码：’, data.status_code)

暂停 0-1 秒

time.sleep(random.random())

解析 HTML

selector = etree.HTML(data.text)

获取当前页所有评论

comments = selector.xpath(‘//div[@class=“comment”]’)

遍历所有评论

for comment in comments:

获取星级

star = comment.xpath(‘.//h3/span[2]/span[2]/@class’)[0][7]

获取时间

t = comment.xpath(‘.//h3/span[2]/span[3]/text()’)

获取评论内容

content = comment.xpath(‘.//p/span/text()’)[0].strip()

排除时间为空的项

if len(t) != 0:

t = t[0].strip()

writer.writerow([t, star, content])

接下来我们通过词云直观的来展示下整体评论情况，具体实现如下所示：

import csv

import jieba

from wordcloud import WordCloud

import numpy as np

from PIL import Image

jieba 分词处理

def jieba_():

csv_list = csv.reader(open(‘南方车站的聚会.csv’, ‘r’, encoding=‘utf-8’))

print(‘csv_list’,csv_list)

comments = ‘’

for i,line in enumerate(csv_list):

if i != 0:

comment = line[2]

comments += comment

print(“comment–>”,comments)

jieba 分词

words = jieba.cut(comments)

new_words = []

要排除的词

remove_words = [‘以及’, ‘在于’, ‘一些’, ‘一场’, ‘只有’,

‘不过’, ‘东西’, ‘场景’, ‘所有’, ‘这么’,

‘但是’, ‘全片’, ‘之前’, ‘一部’, ‘一个’,

‘作为’, ‘虽然’, ‘一切’, ‘怎么’, ‘表现’,

‘人物’, ‘没有’, ‘不是’, ‘一种’, ‘个人’

‘如果’, ‘之后’, ‘出来’, ‘开始’, ‘就是’,

‘电影’, ‘还是’, ‘不是’, ‘武汉’, ‘镜头’]

for word in words:

if word not in remove_words:

new_words.append(word)

global word_cloud

用逗号分隔词语

word_cloud = ‘，’.join(new_words)

生成词云

def world_cloud():

背景图

cloud_mask = np.array(Image.open(‘bg.jpg’))

wc = WordCloud(

背景图分割颜色

background_color=‘white’,

背景图样

mask=cloud_mask,

显示最大词数

max_words=600,

显示中文

font_path=‘./fonts/simhei.ttf’,

字的尺寸限制

min_font_size=20,

max_font_size=100,

margin=5

)

global word_cloud

x = wc.generate(word_cloud)

生成词云图片

image = x.to_image()

展示词云图片

image.show()

现在能在网上找到很多很多的学习资源，有免费的也有收费的，当我拿到1套比较全的学习资源之前，我并没着急去看第1节，我而是去审视这套资源是否值得学习，有时候也会去问一些学长的意见，如果可以之后，我会对这套学习资源做1个学习计划，我的学习计划主要包括规划图和学习进度表。

分享给大家这份我薅到的免费视频资料，质量还不错，大家可以跟着学习

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

PDD工程师

关注

22
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
最新Python 分析电影《南方车站的聚会》(1)，2024年最新阿里面试题

Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习 Python 门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！
复制链接

扫一扫