火车头采集翻页内容_爬虫：python采集豆瓣影评信息并进行数据分析

最新推荐文章于 2024-02-09 11:40:05 发布

weixin_39670857

最新推荐文章于 2024-02-09 11:40:05 发布

阅读量629

点赞数

文章标签：火车头采集翻页内容

本文链接：https://blog.csdn.net/weixin_39670857/article/details/112356680

版权

本文介绍了使用Python爬虫采集复仇者联盟4的豆瓣影评信息，包括短评内容、发布人信息、评价指数、评价时间和赞同数。通过XPath解析网页数据，利用火车头采集翻页内容，最终进行词云分析和时间热度分析，揭示用户评价趋势和活跃时段。

摘要由CSDN通过智能技术生成

前言：最近比较有时间，替一个同学完成了一个简单的爬虫和数据分析任务，具体的要求是爬取复仇者联盟4 的豆瓣影评信息并进行简单的数据分析，这里的数据分析指的是提取关键词并进行词云分析以及按照时间进行热度分析，分析比较简单，后续可以继续完善。

首先，献上数据采集和分析的结果。

短评数据

按照该同学的要求，只采集了1000条数据，有需要更多数据的同学可自行修改采集的限制即可

下面，我们就来详细描述下如何完成数据采集和数据分析的工作的

首先，爬虫的第一步，分析页面元素，打开网页，按下F12，查看数据请求

从上往下，依次寻找，我们可以发现数据就存在于第一个请求中

我们可以分析下这个请求，点击翻页，多请求几个页面

我们可以知道他的翻页规律是由start和limit这两个参数来控制的，start表示第几页，limit表示每页多少条

知道他的分页规律后，我们需要定位我们需要采集的元素，我们这里需要采集短评内容、发布人信息、评价指数、评价时间，赞同数等

这里我们选择的是etree+xpath解析数据，这里我给大家演示下如何定位短评内容，我们采用浏览器上的选中元素的功能，选中元素后，查看元素的位置

分析对应的html元素，首先找到该元素最可靠的顶级元素，这里我们可以很容易的发现这个元素是位于id="comments"这个div元素下面，一般而言，以id为准的元素不会发生太大的变化，接着，我们继续往下找，找到对应元素的上级中比较可靠的元素，比如class，这里有个小技巧，我们可以利用浏览器的$x方法验证我们的xpath是否正确，像下面这样

这样我们就可以很容易的采集到短评数据了，代码如下

def start_spider(self):        result_list = []        for i in range(0,50):            start = i            reponse = requests.get(self.target_url.format(start),headers=self.headers)            # print(reponse.text)            html = etree.HTML(str(reponse.content,'utf-8'))            # 短评列表            short_list = html.xpath('//div[@id="comments"]/div[@class="comment-item"]//span[@class="short"]/text()')            print(short_list)            times = html.xpath('//div[@class="comment-item"]//span[@class="comment-info"]/span[2]/@class')            complte_times = html.xpath('//div[@class="comment-item"]//span[@class="comment-info"]/span[3]/@title')            votes = html.xpath('//div[@class="comment-item"]//div[@class="comment"]/h3/span[@class="comment-vote"]/span[@class="votes"]/text()') # 赞同量

采集了短评数据，我们还需要采集发布人的一些其他信息，比如注册时间，常驻城市等等

因此我们需要根据这个链接去用户的主页完成信息采集

采集的原理也是一样，利用xpath解析网页数据，不过这个链接需要注意的是，需要登录后才能请求，我这个爬虫里面的解决办法是利用cookie，

当我们用账户登录后，随便查看一个请求，都能发现我们的cookie信息

直接复制这段请求到请求的header里就行

代码如下

headers = {        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',        'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36",        'Cookie': 'll="118281"; bid=1E8tHh1UO7k; __utma=30149280.787827060.1593838175.1593838175.1593838175.1; __utmc=30149280; __utmz=30149280.1593838175.1.1.utmcsr=so.com|utmccn=(referral)|utmcmd=referral|utmcct=/link; ap_v=0,6.0; _vwo_uuid_v2=DFE5584FB8092E19E1C48ACB6A8C99E62|d5d4f0c4ca4c47a6ddcacacff97040ad; __gads=ID=5490f395fcb95985:T=1593838190:S=ALNI_Mbd_y4lD5XgT1pqnwj9gyQQasX2Nw; dbcl2="218965771:ytN/j1jGo58"; ck=7U_Q; __guid=236236167.3893834060458141000.1593840219409.0322; _pk_ref.100001.8cb4=%5B%22%22%2C%22%22%2C1593840220%2C%22https%3A%2F%2Faccounts.douban.com%2Faccounts%2Fpassport%2Fregister%22%5D; _pk_ses.100001.8cb4=*; push_noty_num=0; push_doumail_num=0; __utmt=1; __utmv=30149280.21896; __yadk_uid=5q5tgoXkHZk2p7qqUcXhzcqZF8yK4kpa; monitor_count=4; _pk_id.100001.8cb4=a34ccb6950d8365b.1593840220.1.1593840306.1593840220.; __utmb=30149280.9.10.1593838175'    }

            # 用户链接列表            user_list = html.xpath('//div[@id="comments"]/div[@class="comment-item"]//span[@class="comment-info"]/a/@href')            for i in range(len(user_list)):                url = user_list[i]                item = {'short':self.clear_character_chinese(str(short_list[i]))}                reponse = requests.get(url,headers=self.headers)                html = etree.HTML(reponse.text)                city = html.xpath('//div[@class="user-info"]/a/text()')                join_date = html.xpath('//div[@class="user-info"]/div[@class="pl"]/text()')                if(city != None):                    if(len(city) > 0):                        item['city'] = self.clear_character_chinese(city[0])                    else:                        continue                if(join_date != None):                    if(len(join_date)>1):                        item['join_date'] = self.clear_character_chinese(join_date[1]).replace("加入","")                    elif(len(join_date)>0):                        item['join_date'] = self.clear_character_chinese(join_date[0]).replace("加入","")                    else:                        continue                user_name = html.xpath('//div[@class="info"]/h1/text()')

爬虫的代码基本就这些，我们这里是存储为excel文件，代码如下

    # # 保存数据到excel文件    def saveToCsv(self,data):        print(data)        wb = Workbook()        ws = wb.active        ws.append(['短评内容','评分','赞同量','评价日期','评价时间', '用户名', '常住地址','注册时间'])        for item in data:            line = [item['short'], item['time'],item['vote'],item['complete_time'],item['detail_time'], item['userName'],item['city'],item['join_date']]            ws.append(line)            wb.save('douban.xlsx')

保存的数据如开篇所示

获得了数据之后，我们利用wordcloud进行词云分析，分别分析出全部、好评、中评、差评等数据的词云，代码如下

    # 读取短评内容    def read_short_data(self,word_type):        data = []        workbook1=load_workbook('douban.xlsx')        sheet=workbook1.get_sheet_by_name("Sheet")        count = 0        for row in sheet.iter_rows():            if(count == 0):                count = 1                continue            print(row[0].value)            short = row[0].value            short_type = row[1].value            if (word_type == 1):                if (int(short_type)<40):                    continue            elif(word_type == 2):                if (int(short_type)>=40 or int(short_type)<=20):                    continue            elif(word_type == 3):                if (int(short_type)>20):                        continue            short = self.clean_stopwords(short)            data.append(short)        return ";".join(data)    def generWord(self,word_type):        # 查询数据        content = self.read_short_data(word_type)        msg = "全部"        if(word_type == 1):            msg = "好评"        elif(word_type == 2):            msg = "中评"        elif(word_type == 3):            msg = "差评"        self.get_image(content,"douban_{}.png".format(msg))    # 生成词云    def get_image(self,data,savePath):        text  = self.trans_CN(data)        wordcloud = WordCloud(            background_color="white",            font_path = "C:WindowsFontsmsyh.ttc"        ).generate(text)        # image_produce = wordcloud.to_image()        # image_produce.show()        wordcloud.to_file(savePath)

词云出来的结果如下所示

好评

中评

差评

全部

分析了词云，我们接着完成时间分析，因为采集的数据太少，分析结果不是很好，代码如下

   # 时间分析    def group_by(self,column):        workbook1=load_workbook('douban.xlsx')        sheet=workbook1.get_sheet_by_name("Sheet")        count = 0        item={}        for row in sheet.iter_rows():            if(count == 0):                count = 1                continue            print(row[0].value)            join_time = row[column].value            if (column == 4):                join_time_str = join_time.split(':')[0]                join_time = int(join_time_str)            if(join_time in item):                item[join_time] = item[join_time]+1            else:                item[join_time] = 1        x = []        y = []        for i in sorted (item) :             if(column == 4):                join_time = str(int(i))+'点至'+str(int(i)+1)+'点'                x.append(join_time)            else:                x.append(i)            y.append(item[i])        if(column == 4):            plt.xlabel('日期')        else:            plt.xlabel('时刻')        plt.ylabel('短评数量')        print(y)        plt.plot(x, y)        plt.xticks(x, x, rotation=30)        if(column == 4):            plt.title('短评数量随着时刻的变化关系')        else:            plt.title('短评数量随着日期的变化关系')        plt.rcParams['font.sans-serif'] = 'SimHei'        plt.rcParams['axes.unicode_minus'] = False        if(column == 4):            plt.savefig('group_bytime.png')        else:            plt.savefig('group_bydate.png')

这里只分析了短评数量的变化，实际上数据中还有很多可以分析的内容，分析结果如下