自然语言处理入门(5)——基于WordArt的AGM手机评论词频分析

本文首先从速卖通(Aliexpress)获取到AGM X1手机(战狼2中吴京用的手机)的评论数据,然后利用一个很好的公开词频分析工具WordArt(https://wordart.com/create)来对评论数据进行分析

1. 获取评论数据

(1) 评论数据获取python代码如下所示:

# -*- coding: utf-8 -*-
"""
Created on Tue Aug 15 16:44:15 2017

@author: Administrator
"""

import urllib.request
from bs4 import BeautifulSoup
import time
import random
import pymysql.cursors


def crawl(url,i):

    html1 = urllib.request.urlopen(url).read()
    html1 = str(html1)

    soup1 = BeautifulSoup(html1,'lxml')
    result1 = soup1.find_all(attrs={"class":"r-time"})
    #print(result1)
    result2 = soup1.find_all(attrs={"class":"buyer-feedback"})
    result2 = str(result2)

    soup2 = BeautifulSoup(result2,'lxml')
    result3 = soup2.find_all('span')


    for j in range(0,10):
        commentTime = result1[j].string
        print(commentTime)
        commentContent = result3[j].get_text()
        print(commentContent)


        '''
        数据库操作
        '''



        #获取数据库链接
        connection  = pymysql.connect(host = 'localhost',
                                  user = 'root',
                                  password = '123456',
                                  db = 'comment',
                                  charset = 'utf8mb4')
        try:
            #获取会话指针
            with connection.cursor() as cursor:
                #创建sql语句
                sql = "insert into `agm` (`commentTime`,`commentContent`) values (%s,%s)"

                #执行sql语句
                cursor.execute(sql,(commentTime,commentContent))

                #提交数据库
                connection.commit()
        finally:
            connection.close()



for i in range(1,26):
    print("正在下载第{}页数据...".format(i))
    #速卖通商品评论链接
    url = "https://feedback.aliexpress.com/display/productEvaluation.htm?productId=32789025522&ownerMemberId=224795258&companyId=234539103&memberType=seller&startValidDate=&i18n=true&page=" + str(i)
    crawl(url,i)
    t = random.randint(11,16)
    print("休眠时间为:{}s".format(t))
    time.sleep(t)

(2) 获取到的数据格式如下所示:

这里写图片描述

2. 用WordArt做词频分析

首先选取20个用户的评论数据导入WordArt中,删除部分无用字符之后的初步分析结果如下图所示:

这里写图片描述

设置好图片的形状、字体、布局等参数之后,画出来的效果如下图所示:、

这里写图片描述

通过上图,可以很直观地看出评论中哪些词语出现的频率最高。

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值