python beautifulsoup抓取京东商品名称和价格

本文介绍如何利用Python的BeautifulSoup库抓取京东网站上的商品名称及对应的价格,实现数据的自动化采集。
摘要由CSDN通过智能技术生成

使用beautifulsoup抓取京东商品的名称和价格

#coding=utf-8

import urllib
import urllib2
import cookielib
from bs4 import BeautifulSoup
import sys
reload(sys)
sys.setdefaultencoding("utf-8") #处理编码


product ="ThinkPad i5"


text = urllib.urlopen("http://search.jd.com/Search?keyword="+product+"&enc=utf-8").read()
soup = BeautifulSoup(text)


content = soup.find_all('div', attrs={'class':'lh-wrap'})
for wrap in content:
name_tags = wrap.find_all('div', attrs={'class':'p-name'})
for name in name_tags:
print '商品:'+name.find('a').get_text()
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python爬虫抓取京东商品通常涉及以下几个步骤: 1. **安装必要的库**: 首先,你需要安装一些用于网络请求(如requests)、解析HTML(如BeautifulSoup或 lxml)和处理数据的库,比如`requests`, `bs4` 或者 `html.parser`。 2. **分析网页结构**: 打开京东的商品页面,查看HTML代码,找到包含商品信息的标签元素。这可能包括标题、价格、图片URL、描述等。理解这些信息如何通过JavaScript动态加载是关键,因为很多现代网站会用AJAX技术来更新内容。 3. **发送请求并获取HTML**: 使用`requests.get()`函数发送GET请求到商品详情页,获取返回的HTML源码。如果遇到需要登录或有反爬机制的情况,可能还需要模拟登录或设置User-Agent等头信息。 4. **解析HTML**: 使用BeautifulSoup或其他解析器,解析HTML源码,提取出所需的数据。根据元素的CSS选择器或XPath表达式定位商品信息。 5. **数据存储**: 将抓取到的数据(如字典或列表)保存到本地文件(CSV、JSON、数据库等),或者直接插入到数据库中,以便后续分析和展示。 6. **异常处理**: 爬虫过程中可能会遇到各种问题,如网络中断、服务器响应错误等,需要添加适当的错误处理代码。 7. **遵守网站规则**: 在编写爬虫时,务必遵守京东或其他网站的服务条款,尊重robots.txt协议,并尽量减少对服务器的压力,避免被封IP。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值