学习笔记:python数据分析:8.数据就该这么玩1.1

本文介绍了如何使用Python进行数据分析,通过电影ID获取电影名和评分,并构建相关函数。接着,设计了一个生成词云并保存的函数,分析了关键词与评分之间的关系。内容包括创建DataFrame,统计关键词频率,绘制热力图等,揭示了电影关键词的出现次数与评分的关联。
摘要由CSDN通过智能技术生成

根据电影ID在douban_movie_data找出电影名和评分
可以构造为一个函数来调用
函数构造,根据电影ID返回电影名和评分

def get_movie_name_and_score(movie_id):
    movie_link = 'https://movie.douban.com/subject/{}/'.format(movie_id)
    search_result = movie_data[movie_data['链接']==movie_link].iloc[0]
    movie_name = search_result['电影名']
    movie_score = search_result['评分']
    return(movie_name,movie_score)

调用函数的方法

movie_name, movie_score = get_movie_name_and_score(movie_id)

设计一个词云生成及保存函数
函数构造,根据关键词频及储存名称保存词云图

def generate_word_cloud(word_list,path_name):
    wordcloud = WordCloud()
    wordcloud.add(
        "",
        tuple(zip(word_list.index,word_list)),
        word_size_range=[20,100])
    wordcloud.render(path_name)
    print(f"Generate word cloud file done: {path_name}")
    # return tuple(zip(word_list.index,word_list))

完整代码:

import sqlite3  # 导入SQLite3数据库模块
import pandas as pd  # 导入pandas模块
import jieba  # 导入‘结巴’模块
import pyecharts.options as opts
from pyecharts.charts import WordCloud

FILTER_WORDS = ['知道','影评','电影','影片','这么','那么','怎么','如果','这个','一个','这种','时候',
                '什么','一部','没有','还有','是','的','...','\n','is','觉得']

def get_movie_id_list(min_comment_count):  # 设计函数,输入参数:最小评论数量
    movie_list = comment_data['MOVIEID'].value_counts()  # 统计各个电影的评论数
    movie_list = movie_list[movie_list.values>min_comment_count]  # 筛选评论数大于最小评论数量的电影

    return movie_list.index  # 返回数据:高于最小评论数量的电影ID列表

def get_comment_keywords_counts(movie_id,count):
    comment_list = comment_data[comment_data['MOVIEID']==movie_id]['CONTENT']  # 根据ID筛选评论
    # print(comment_list)
    comment_str_all = ''
    for comment in comment_list:
        comment_str_all += comment + '\n'  # 整合全部评论为一个字符串,以换行隔开
    seg_list = list(jieba.cut(comment_str_all))  # 获取分词后的列表
    keywords_counts = pd.Series(seg_list)  # 转换成Pandas的Series类型数据
    keywords_counts = keywords_counts[keywords_counts.str.len()>1]  # 利用str.len()筛选字符串长度
    keywords_counts = keywords_counts[~keywords_counts.str.contains('|'.join(FILTER_WORDS))]  # 反向选择不包含过滤词列表中词语的数据
    keywords_counts = keywords_counts.value_counts()[:count]  # 统计各个关键词的出现次数

    return</
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值