学习笔记：python数据分析：8.数据就该这么玩1.1

最新推荐文章于 2023-06-05 20:06:56 发布

Python学习中的进阶者

最新推荐文章于 2023-06-05 20:06:56 发布

阅读量412

点赞数

分类专栏：数据分析文章标签：数据分析

本文链接：https://blog.csdn.net/weixin_42850424/article/details/106325240

版权

本文介绍了如何使用Python进行数据分析，通过电影ID获取电影名和评分，并构建相关函数。接着，设计了一个生成词云并保存的函数，分析了关键词与评分之间的关系。内容包括创建DataFrame，统计关键词频率，绘制热力图等，揭示了电影关键词的出现次数与评分的关联。

摘要由CSDN通过智能技术生成

根据电影ID在douban_movie_data找出电影名和评分
可以构造为一个函数来调用
函数构造，根据电影ID返回电影名和评分

def get_movie_name_and_score(movie_id):
    movie_link = 'https://movie.douban.com/subject/{}/'.format(movie_id)
    search_result = movie_data[movie_data['链接']==movie_link].iloc[0]
    movie_name = search_result['电影名']
    movie_score = search_result['评分']
    return(movie_name,movie_score)

调用函数的方法

movie_name, movie_score = get_movie_name_and_score(movie_id)

设计一个词云生成及保存函数
函数构造，根据关键词频及储存名称保存词云图

def generate_word_cloud(word_list,path_name):
    wordcloud = WordCloud()
    wordcloud.add(
        "",
        tuple(zip(word_list.index,word_list)),
        word_size_range=[20,100])
    wordcloud.render(path_name)
    print(f"Generate word cloud file done: {path_name}")
    # return tuple(zip(word_list.index,word_list))

完整代码：

import sqlite3  # 导入SQLite3数据库模块
import pandas as pd  # 导入pandas模块
import jieba  # 导入‘结巴’模块
import pyecharts.options as opts
from pyecharts.charts import WordCloud

FILTER_WORDS = ['知道','影评','电影','影片','这么','那么','怎么','如果','这个','一个','这种','时候',
                '什么','一部','没有','还有','是','的','...','\n','is','觉得']

def get_movie_id_list(min_comment_count):  # 设计函数，输入参数：最小评论数量
    movie_list = comment_data['MOVIEID'].value_counts()  # 统计各个电影的评论数
    movie_list = movie_list[movie_list.values>min_comment_count]  # 筛选评论数大于最小评论数量的电影

    return movie_list.index  # 返回数据：高于最小评论数量的电影ID列表

def get_comment_keywords_counts(movie_id,count):
    comment_list = comment_data[comment_data['MOVIEID']==movie_id]['CONTENT']  # 根据ID筛选评论
    # print(comment_list)
    comment_str_all = ''
    for comment in comment_list:
        comment_str_all += comment + '\n'  # 整合全部评论为一个字符串，以换行隔开
    seg_list = list(jieba.cut(comment_str_all))  # 获取分词后的列表
    keywords_counts = pd.Series(seg_list)  # 转换成Pandas的Series类型数据
    keywords_counts = keywords_counts[keywords_counts.str.len()>1]  # 利用str.len()筛选字符串长度
    keywords_counts = keywords_counts[~keywords_counts.str.contains('|'.join(FILTER_WORDS))]  # 反向选择不包含过滤词列表中词语的数据
    keywords_counts = keywords_counts.value_counts()[:count]  # 统计各个关键词的出现次数

    return</

最低0.47元/天解锁文章

Python学习中的进阶者

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学习笔记：python数据分析：8.数据就该这么玩1.1

根据电影ID在douban_movie_data找出电影名和评分可以构造为一个函数来调用函数构造，根据电影ID返回电影名和评分def get_movie_name_and_score(movie_id): movie_link = 'https://movie.douban.com/subject/{}/'.format(movie_id) search_result = movie_data[movie_data['链接']==movie_link].iloc[0] movi
复制链接

扫一扫

专栏目录