基于Scrapy的爬虫爬取京东商品信息与评论

最新推荐文章于 2024-06-02 16:38:43 发布

Sleepy丶head

最新推荐文章于 2024-06-02 16:38:43 发布

阅读量6.1k

点赞数 4

文章标签： Scrapy 爬取商品评论信息爬虫京东

本文链接：https://blog.csdn.net/qq_34268046/article/details/76400700

版权

本文介绍如何利用Scrapy框架抓取京东网站上的手机商品信息和评论数据。首先，概述了爬虫的基本原理，接着详细阐述了Scrapy的特性。接着，讲解了XPath在网页结构定位中的应用。在工程文件结构部分，提到了items.py、pipelines.py、settings.py和sogou.py四个关键文件的作用，特别是如何存储商品信息和评论到JSON文件。最后，描述了如何通过XPath解析页面并构建评论页链接，以及在pipelines.py中对数据进行处理和存储的过程。

摘要由CSDN通过智能技术生成

总体概述

从京东搜索框搜索进入手机进入页面，爬取内容分成两类，一类是手机的基本信息（标题、价格、链接），另一类是评论信息（用户名、评论内容、评论总数等），将信息爬取下来之后，进行数据处理，以方便显示和查看的格式保存下来。

（1）爬虫
爬虫又称网络蜘蛛、网络蚂蚁、网络机器人等，是一种按照一定的规则自动地抓取万维网信息的程序或者脚本，它的原理简单来讲就是通过选定入口URL，模拟HTTP请求，找到页面上想要获取的数据，然后保存下来。
（2）Scrapy框架
Scrapy是Python开发的一个快速、高层次的屏幕抓取和WEB抓取框架，用于抓取web站点并从页面中提取结构化数据。用途比较广泛，可用于数据挖掘、监测和自动化测试。
Scrapy是一个自定义程度很高的框架，任何人都可以根据自己的需求很方便填写或者重写里边的函数。它页提供了多种类型的爬虫基类。
（3）XPath
XPath即为XML路径语言，是一种用来确定文档中某部分位置的语言，XPath基于XML的树状结构，提供在数据结构中寻找节点的能力，也可用于HTML页面。
通过浏览器查看页面源码，找到我们想要的信息的节点位置，然后通过XPath的路径表达式，对节点进行遍历，从而获得数据。

工程文件结构
通过命令行创建一个Scrapy工程文件，文件结构如下图，在这个项目中，主要编写items.py、pipelines.py、setting.py以及sogou.py（爬虫文件）这四个文件。并将手机基本信息储存在mydata.json文件中，评论信息储存在mydata1.json文件中，product_url.txt储存每个商品的链接，这个文件的主要作用是抓取评论时方便读取每个商品额url。

①items.py
因为写了两个爬虫，一个爬取手机信息，一个爬取评论信息，所以我们定义了两个类JdphoneItem和CommentItem

import scrapy

class JdPhoneItem(scrapy.Item):
    url = scrapy.Field()    #商品链接
    title = scrapy.Field()  #商品标题
    price = scrapy.Field()  # 商品价格

class CommentItem(scrapy.Item):
    user_name = scrapy.Field()  # 用户名
    comment_num = scrapy.Field   #评论总数
    content = scrapy.Field()  # 评论内容
    phone_name = scrapy.Field() #手机名称

②sogou.py
首先，获取入口链接，由于搜索页面的翻页规则是page=1开始，1，3，5，7…..这样以奇数递增，所以用一个循环将前十页加入入口链接。

最低0.47元/天解锁文章

Sleepy丶head

关注

4
点赞
踩
62

收藏

觉得还不错? 一键收藏
4
评论
基于Scrapy的爬虫爬取京东商品信息与评论

总体概述从京东搜索框搜索进入手机进入页面，爬取内容分成两类，一类是手机的基本信息（标题、价格、链接），另一类是评论信息（用户名、评论内容、评论总数等），将信息爬取下来之后，进行数据处理，以方便显示和查看的格式保存下来。
复制链接

扫一扫