Python实战_1_第一周_第二节练习项目:爬取商品信息

使用BeautifulSoup写爬虫,需要完成以下三个步骤。

0 使用BeautifulSoup解析一个网页
1 找到所有你需要的标签
2 从标签中提取需要的数据

xpath 与 css selector 有点象现实生活的地址,感觉也有点像文字检索。

# coding:utf-8
from bs4 import BeautifulSoup

with open("./index.html",'r') as web_file:
    soup = BeautifulSoup(web_file, 'lxml')

    imgs = soup.select("body > div > div > div > div > div > div > img")
    names = soup.select("body > div > div > div > div > div > div > div > h4 > a")
    prices = soup.select("body > div > div > div > div > div > div > div > h4.pull-right")
    reviews = soup.select("body > div > div > div > div > div > div > div > h4.pull-right")
    stars = soup.select("body > div > div > div.col-md-9 > div > div > div > div.ratings > p:nth-of-type(2)")

for img, name, price, reviews, star in zip(imgs, names, prices, reviews, stars):
    data = {
        'image':img.get('src'),
        'name':name.get_text(),
        'price':price.get_text(),
        'reviews':reviews.get_text(),
        'star':len(star.find_all('span','glyphicon-star'))
    }

    print(data)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值