python抓取京东商品颜色&beautifulsoup的一些常用函数

  python爬虫抓取京东上商品时,大部分商品有颜色的选项,所以想把不同颜色的商品都爬取的时候,需要获得这个商品的url
  首先要找到商品颜色的那个地方,不知为何用浏览器看是显示javascript,然是用requests下载下来的时候就是用url的,尝试抓了一天点击的js去请求都没抓到,坑
  于是写了一个返回当前商品所有颜色的url数组的函数,如果只有一种颜色,那么就返回一个只有当前url的数组
import requests
from bs4 import BeautifulSoup

def getItemUrl(url):
  r = requests.get(url)
  soup = BeautifulSoup(r.content,'html.parser')
  try:
      tmpHref = [item.find('a') for item in soup.find(id='choose-color').find_all(class_='item')]
      href = []
      for h in tmpHref:
          if h != None:
              href.append('http:'+h.get('href'))
  except:
      href = [url]
  return href

if __name__ == '__main__':
    for item in getPage('http://item.jd.com/1076647290.html'):
        print item
#http://item.jd.com/1739587109.html这个是只有一种颜色的,上面那个是有多种颜色的
  另外beautifulsoup的一些常用函数
  • find() :一般用于找某个id或者class,用法find(id=’xxx’)或者find(class_=’xxx’)
  • get() :一般用于获取当前标签下的某项属性

    例子:如a href = ‘xxx’这样的先用find(‘a’)找到,再用get(‘href’)获得它的url

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值