简单的商品信息爬虫——爬易迅网

最新推荐文章于 2024-08-15 12:11:47 发布

sanfendi

最新推荐文章于 2024-08-15 12:11:47 发布

阅读量1.5k

点赞数

分类专栏： Python 文章标签：爬虫 python

本文链接：https://blog.csdn.net/laozhaokun/article/details/44222441

版权

本文介绍了一个简单的Python爬虫项目，用于抓取易迅网上的商品信息。通过分析网页HTML结构，爬取了商品ID对应的URL、标题、易迅价、促销价及类目。

摘要由CSDN通过智能技术生成

收集到很多易迅网的商品ID，于是想把这些ID对应的商品信息爬下来。通过简单分析发现，易迅网的各类信息都是直接放在HTML页面上，所以，解析一个页面就好了。

最后返回每个ID对应的商品url,标题,易迅价,促销价，类目。

下面是python代码：

#!/usr/bin/env python
#coding:utf-8
'''
Created on 2015年03月11日
@author: zhaohf
'''
import urllib2
from bs4 import BeautifulSoup
def get_yixun(id):
    price_origin,price_sale,category = '0','0',''
    url = 'http://item.yixun.com/item-' + id + '.html'
    html = urllib2.urlopen(url).read().decode('utf-8')
    soup = BeautifulSoup(html)
    title = unicode(soup.title.text.strip().strip(u'【价格_报价_图片_行情】-易迅网').replace(u'】','')).encode('utf-8').decode('utf-8')
    try:
        soup_origin = soup.find("dl", { "class" : "xbase_item xprice xprice_origin" })
        price_origin = soup_origin

最低0.47元/天解锁文章

sanfendi

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
简单的商品信息爬虫——爬易迅网

收集到很多易迅网的商品ID，于是想把这些ID对应的商品信息爬下来。通过简单分析发现，易迅网的各类信息都是直接放在HTML页面上，所以，解析一个页面就好了。最后返回每个ID对应的商品url,标题,易迅价,促销价，类目。下面是python代码：#!/usr/bin/env python#coding:utf-8'''Created on 2015年03月11日@author: z
复制链接

扫一扫

专栏目录