自拟题目大作业

最新推荐文章于 2024-06-21 11:07:18 发布

该博客已停用

最新推荐文章于 2024-06-21 11:07:18 发布

阅读量1w

点赞数 11

分类专栏： 2017小学期python

本文链接：https://blog.csdn.net/qq_38597315/article/details/79190210

版权

本次大作业采用Python完成一个爬虫程序，抓取豆瓣评论并生成词云，代码量不少于100行。提交内容包括可运行的代码和3页以上的设计文档，涵盖目标、框架、第三方库和关键代码说明。评分标准关注目标完成度、创新、代码量和文档完备性。项目适合两人合作，使用各自账号提交，文件逐一上传，不接受压缩包。

摘要由CSDN通过智能技术生成

描述
自拟题目，完成一个利用Python程序的大作业，不少于100行代码。
需要提交：
（1）可运行的代码
（2）设计文档（整体设计目标、代码总体框架、第三方库介绍、关键代码说明、效果和结论），不少于3页，不要大段贴代码
评分标准如下：
（1）预定目标完成度
（2）创新创意
（3）代码量达标
（4）文档完备性
两人一组，同组同分，请两位同学用各自账号同时提交作业。
提交时请选择文件提交方式，文件逐一提交，不要用压缩文件。

解析：
是道开放性题目，由于当时小学期还要做网站且python学的也不好，所以就模范网上的python爬虫简易教程写了个爬取豆瓣评论并生成词云展示的程序。网上此类教程很多，也易上手，有些时间紧的同学可以考虑考虑，当然大佬请无视之。

"""
从豆瓣上爬取《秦时明月》、《天行九歌》、《武庚纪》已播放的几部的评论
将爬取的评论数据清洗后存入文本文档
再对文本文档进行分词处理
将分词处理得到的结果进行生成词云
爬虫及分词统计的方法基本上是参照书上的步骤，数据清洗和词云的实现由于书上没说所以参考了一下网上的教程
"""
import re
import time
import jieba
import requests
import numpy as np
import matplotlib.pyplot as plt
from bs4 import BeautifulSoup as bs
from PIL import Image
from wordcloud import WordCloud,ImageColorGenerator
#获取评论
def GetComments(CommentID,name):
    #爬取某一部的10页评论
    Comment_List=[]
    for i in range(10):
        start=(i+1)*20
        Url='https://movie.douban.com/subject/'+CommentID+'/comments?start='+str(start)
        print(Url)
        try:
            Comment_HTML=requests.g