python爬取当当商城信息并保存至数据库

本文介绍了如何使用Python爬虫从当当商城抓取商品信息,并将数据存储到数据库中。首先,利用XPath解析网页获取所需数据,然后将数据保存到JSON文件。接着,读取JSON文件,连接数据库并将数据批量导入。最后,展示了如何修改URL以爬取多页商品信息。
摘要由CSDN通过智能技术生成

由于最近自己在写个电商项目,需要大量的商品信息,故学习了下怎么爬取现有的商城商品信息。

爬取页面

爬取页面:http://category.dangdang.com/cid4002644.html,利用xpath检索到需要的数据,利用item={}(即map)将需要的数据保存其他,最终通过json将map保存到json/data.sjon中。
代码如下:

# -*- coding: utf-8 -*-
import requests
import lxml.html
import json

def parse_url(xiaohua_url, headers):
    response = requests.get(xiaohua_url, headers=headers)
    return response.content.decode("gbk")

def get_data(html_content):
    metree=lxml.html.etree
    # 解析对象
    parser=metree.HTML(html_content,metree.HTMLParser())
    # 解析获得在当前校花中的所有信息
    div_list=parser.xpath('//div[@id="search_nature_rg"]/ul[@class="bigimg cloth_shoplist"]/li')
    # print(div_list)
    result=[]
    index=0
    for element in div_list:
        index+=1
        item={
   }
        # item["top_title"]=element.xpath('./div[@class="goods-list-item  c-goods  J_pro_items"]/@id')
        item["top_title"]=element.xpath('./a/@title')[0]
        if index <= 8:
            item["pict_src"]=element.xpath('./a/img/@src')[0]
        if index>8:
            item["pict_src"]=element.xpath('./a/img/@data-original')[0]
        item["price"] = element.xpath('./p[@class="price"]/span[@class=
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值