自拟题目大作业

描述
自拟题目,完成一个利用Python程序的大作业,不少于100行代码。
需要提交:
(1)可运行的代码
(2)设计文档(整体设计目标、代码总体框架、第三方库介绍、关键代码说明、效果和结论),不少于3页,不要大段贴代码
评分标准如下:
(1)预定目标完成度
(2)创新创意
(3)代码量达标
(4)文档完备性
两人一组,同组同分,请两位同学用各自账号同时提交作业。
提交时请选择文件提交方式,文件逐一提交,不要用压缩文件。

解析:
是道开放性题目,由于当时小学期还要做网站且python学的也不好,所以就模范网上的python爬虫简易教程写了个爬取豆瓣评论并生成词云展示的程序。网上此类教程很多,也易上手,有些时间紧的同学可以考虑考虑,当然大佬请无视之。

"""
从豆瓣上爬取《秦时明月》、《天行九歌》、《武庚纪》已播放的几部的评论
将爬取的评论数据清洗后存入文本文档
再对文本文档进行分词处理
将分词处理得到的结果进行生成词云
爬虫及分词统计的方法基本上是参照书上的步骤,数据清洗和词云的实现由于书上没说所以参考了一下网上的教程
"""
import re
import time
import jieba
import requests
import numpy as np
import matplotlib.pyplot as plt
from bs4 import BeautifulSoup as bs
from PIL import Image
from wordcloud import WordCloud,ImageColorGenerator
#获取评论
def GetComments(CommentID,name):
    #爬取某一部的10页评论
    Comment_List=[]
    for i in range(10):
        start=(i+1)*20
        Url='https://movie.douban.com/subject/'+CommentID+'/comments?start='+str(start)
        print(Url)
        try:
            Comment_HTML=requests.g
  • 11
    点赞
  • 106
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值