纪录片播放量预测
实际项目
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LinearRegression,Ridge
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn import metrics
import jieba
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import TruncatedSVD
import matplotlib.pyplot as plt
from wordcloud import WordCloud
import warnings
warnings.filterwarnings('ignore')
一、数据检索
在此项目中,每部纪录片的名称都是独立的,如果片名参与运算的话,会提升模型复杂度,造成过拟合的情况
data = pd.read_excel('./datas/纪录片播放量.xls',index_col='片名')
data.head()
上传日期 | 播放数 | 弹幕数 | 硬币数 | 收藏数 | 上传者投稿数 | 上传者粉丝数 | 评论数 | 分享数 | 标签 | 简介 | |
---|---|---|---|---|---|---|---|---|---|---|---|
片名 | |||||||||||
【CCTV】中国国家森林公园【全三辑】 | 2017-01-05 20:19 | 175 | 0 | 1 | 28 | 170 | 4795 | 1 | 0 | CCTV\n森林\n森林公园 | CCTV 从普及森林科学知识角度,以生态保护、人与自然和谐相处为主题,将我国森林资源的特点、… |
雷蒙德·布兰克的厨房秘密【全8集】 | 2017-01-05 19:16 | 531 | 0 | 7 | 118 | 315 | 47473 | 10 | 3 | 英国\n吃货\nBBC\n文化\n人物\n人文\n纪录片\n美食 | 作为米其林三星厨师的雷蒙德来自法国这个充满浪漫和美食气息的地方。在本节目中,他将开放自己的厨… |
年轻人们|面基字幕组 | 2017-01-05 18:51 | 541 | 0 | 34 | 34 | 38 | 7240 | 23 | 5 | 翻译\n阿尔法小分队\n字幕组\nVICE中国\n柚子木字幕组\n美剧\n果酱字幕组\n纪录… | 作为生活在墙里的一代人,如果没有字幕组不厌其烦的工作,你可能得把所有的休闲时间都花在国产电视…< |