用python3爬取天猫商品评论并分析(0)

本文介绍了作者作为爬虫新手,如何使用Python3爬取天猫商品评论,并通过snownlp模块进行情感分析。主要流程包括数据采集,通过获取目标网址,利用正则表达式解析JSON数据,再用json.loads转换为字典。在数据采集过程中,遇到了天猫的安全系统securitymatrix,采取了设置延时的方法降低页面丢失率。文章最后提到,爬虫框架还考虑过selenium和scrapy,但最终选择了request库实现。
摘要由CSDN通过智能技术生成

  由于日后实习需要,新年假期在家里有空写了个抓取天mao评论的程序,并用pythonsnownlp模块进行简单的情感分析,由于本人刚接触python,项目可能有许多不足,请大家谅解!具体流程如下:

0. 主要流程

0. 数据采集

0. 目标网址获取

首先,获取自己要爬取的商品网页。如图:

 

这里用iPhone x的商品做样例(博主目前使用的手机是小米3,穷鬼啊有没有!)。因为加载评论的页面用js封装起来了。因此需要用到浏览器开发者工具获取保存评论的页面,直接按F12打开。如图:

 

NETwork//js目录下有一个形如上图的网址(巨长无比呀),细心发现会有一个page=1的字段,这个是控制不同页数的关键字!因此我们只需要改变page的值就能爬取不同页面的内容了!!具体代码如下:

# -*- coding: utf-8 -*-
import urllib.request
import json
import time
import re
import pymysql
def find_mes
评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值