爬取中关村电脑网惠普电脑各类子品牌报价及相关配置信息

本文介绍了一次使用Python爬虫技术抓取中关村在线网站上惠普电脑品牌详细配置信息的实际操作，包括CPU、内存和硬盘等关键硬件参数，并探讨了如何利用requests库和xpath解析网页，最后将收集到的数据保存为CSV文件，为后续的数据分析提供了原始资料。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

随着计算机软件技术水平的发展，各类图形处理，游戏软件对电脑硬件的要求越来越高，由此，电脑更新换代的频率也越来越快，前段时间宅家无聊，玩Dota2多人对战游戏，玩到high处，突然电脑卡的不能动弹，CPU风扇轰隆隆作响，哎，又该更换电脑了。好久没关注计算机行业发展动态，决定从中关村网上爬取一些目前电脑主流配置及价格等信息。首先打开网页url=http://detail.zol.com.cn/desktop_pc/hp/1.html，这是中关村网惠普电脑品牌，首先分析网页结构，很简单，就是普通加载的网页，在这里插入图片描述页码也是url最后数字变化，从详细页面中可以获取到各品牌的配置信息。本次爬取使用requests库+xpath解析，通过分析详细页，获取cpu/内存等详细信息

`def parse_detail(response):
    html = etree.HTML(response)
    name = html.xpath('//div[@class="product-model page-title clearfix"]/h1/text()')[0]
    cpu = html.xpath('//div[@class="section-content"]/ul[2]/li[1]/p[1]/text()')[0]
    line = html.xpath('//div[@class="section-content"]/ul[2]/li[1]/p[2]/text()')[0]
    memory = html.xpath('//div[@class="section-content"]/ul[2]/li[3]/p[1]/text()')[0]
    disk = html.xpath('//div[@class="section-content"]/ul[2]/li[3]/p[2]/text()')[0]
    item = {
        'name':name,
        'cpu': cpu,
        'line': line,
        'memory': memory,
        'disk': disk
    }
    return item`

最后将获取到的信息保存到csv文件里，以便后续进行数据分析。

def save_to_csv(item):
    df = pd.DataFrame(item,index=[0])
    path = 'zgc_computer_.csv'
    df.to_csv(path, sep=',', header=False, mode='a', encoding='gbk', index=False)