爬虫案例—京东数据爬取、数据处理及数据可视化（效果+代码）

最新推荐文章于 2025-04-28 09:38:40 发布

m0_50902656

最新推荐文章于 2025-04-28 09:38:40 发布

阅读量2.1w

点赞数 25

文章标签：爬虫 python pycharm

本文链接：https://blog.csdn.net/m0_50902656/article/details/122075031

版权

本文通过Python爬虫技术，详细介绍了如何从京东网站抓取商品数据，包括品牌、标题、价格和店铺等信息，并将数据存储到数据库。接着，文章展示了数据清洗的过程，去除无关数据。最后，使用matplotlib库进行数据可视化，包括品牌数量、店铺数量、品牌价格分布以及品牌和店铺的比例关系。所有代码片段均包含在内，可供参考和优化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、数据获取

使用PyCharm(引用requests库、lxml库、json库、time库、openpyxl库和pymysql库)爬取京东网页相关数据（品牌、标题、价格、店铺等）

数据展示（片段）：

京东网页有反爬措施，需要自己在网页登录后，获取cookie,加到请求的header中（必要时引入time库，设置爬取睡眠时间降低封号概率）

爬取代码（片段）：

###获取每一页的商品数据
def getlist(url,brand):
    global count #定义一个全局变量，主要是为了确定写入第几行
    # url="https://search.jd.com/search?keyword=笔记本&wq=笔记本&ev=exbrand_联想%5E&page=9&s=241&click=1"
    res = requests.get(url,headers=headers)
    res.encoding = 'utf-8'
    # text = (res.text).replace("")
    text = res.text
    selector = etree.HTML(text)
    list = selector.xpath('//*[@id="J_goodsList"]/ul/li')#获取数据所在

    for i in list:
        title = i.xpath('.//div[@class="p-name p-name-type-2"]/a/em/text()')[0].strip()#商品名称
        price = i.xpath('.//div[@class="p-price"]/strong/i/text()')[0]#商品价格
        shop = i.xpath('.//div[@class="p-shop"]/span/a/text()')[0] #获取店铺名称
        #获取评论数的id值
        # product_id = i.xpath('.//[@class="p-commit"]/strong/a/@id')[0].replace("J_comment_","")
        # comment_count = commentcount(product_id)
        # print("目前条数="+str(