python抓取京东价格分析京东商品价格走势

本文介绍使用python抓取京东价格的代码,用于分析京东商品价格走势或者用于其它,大家参考使用吧

代码:
from creepy import Crawler
from BeautifulSoup import BeautifulSoup
import urllib2
import json
class MyCrawler(Crawler):
    def process_document(self, doc):
        if doc.status == 200:
            print '[%d] %s' % (doc.status, doc.url)
            try:
                soup = BeautifulSoup(doc.text.decode('gb18030').encode('utf-8'))
            except Exception as e:
                print e
                soup = BeautifulSoup(doc.text)
            print soup.find(id="product-intro").div.h1.text
            url_id=urllib2.unquote(doc.url).decode('utf8').split('/')[-1].split('.')[0]
            f = urllib2.urlopen('http://p.3.cn/prices/get?skuid=J_'+url_id,timeout=5)
            price=json.loads(f.read())
            f.close()
            print price[0]['p']
        else:
            pass www.jbxue.com
crawler = MyCrawler()
crawler.set_follow_mode(Crawler.F_SAME_HOST)
crawler.set_concurrency_level(16)
crawler.add_url_filter('\.(jpg|jpeg|gif|png|js|css|swf)$')
crawler.crawl('http://item.jd.com/982040.html')


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
Python爬虫抓取京东商品通常涉及以下几个步骤: 1. **安装必要的库**: 首先,你需要安装一些用于网络请求(如requests)、解析HTML(如BeautifulSoup或 lxml)和处理数据的库,比如`requests`, `bs4` 或者 `html.parser`。 2. **分析网页结构**: 打开京东的商品页面,查看HTML代码,找到包含商品信息的标签元素。这可能包括标题、价格、图片URL、描述等。理解这些信息如何通过JavaScript动态加载是关键,因为很多现代网站会用AJAX技术来更新内容。 3. **发送请求并获取HTML**: 使用`requests.get()`函数发送GET请求到商品详情页,获取返回的HTML源码。如果遇到需要登录或有反爬机制的情况,可能还需要模拟登录或设置User-Agent等头信息。 4. **解析HTML**: 使用BeautifulSoup或其他解析器,解析HTML源码,提取出所需的数据。根据元素的CSS选择器或XPath表达式定位商品信息。 5. **数据存储**: 将抓取到的数据(如字典或列表)保存到本地文件(CSV、JSON、数据库等),或者直接插入到数据库中,以便后续分析和展示。 6. **异常处理**: 爬虫过程中可能会遇到各种问题,如网络中断、服务器响应错误等,需要添加适当的错误处理代码。 7. **遵守网站规则**: 在编写爬虫时,务必遵守京东或其他网站的服务条款,尊重robots.txt协议,并尽量减少对服务器的压力,避免被封IP。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值