python3爬虫简单小实例1.0

相关用法:
find_all:find_all
find_next:find_next
strip() 方法用于移除字符串头尾指定的字符(默认为空格)。

目的:获取书名和价格
爬取网站地址:https://www.packtpub.com/all

一、书名

这里写图片描述

书名在<div class="book-block-title" itemprop="name">的标签中,使用find_all找到所有匹配结果出现的地方,通过<tag>.string 找到标签内的字符串。

二、价格

这里写图片描述

书的价格独立于如何标签之外,无法直接通过<tag>.string 找到标签内的字符串,需要用到正则表达式。

代码:

# -*- coding: utf-8 -*-
"""
Created on Sat Aug 26 17:28:21 2017

@author: 81294
"""

import urllib
import datetime
from bs4 import BeautifulSoup
import re

starttime = datetime.datetime.now()

url = "https://www.packtpub.com/all"
page = urllib.request.urlopen(url)
soup_packtpage = BeautifulSoup(page,'html.parser')
page.close()

endtime  = datetime.datetime.now()
print(endtime - starttime)

starttime = datetime.datetime.now()

all_book_title = soup_packtpage.find_all("div", class_="book-block-title")
all_book_price = soup_packtpage.find_all("div", class_="book-block-price-discounted ")
a = []
b = []
all_book_prices = re.compile(u"\s+.\s+\d+.\d+")
for book_title in all_book_title:
    c = book_title.string.strip()
    a.append(c)

for book_price in all_book_price:
    book_prices = book_price.find_next(text=all_book_prices)
    d= book_prices.strip().replace(' ' ,'')
    b.append(d)
for book in range(len(a)):
    print("The price of " '《' '{0}' '》' " is "  '{1}' .format(a[book],b[book]))    




endtime = datetime.datetime.now()

print(endtime - starttime)

结果:
这里写图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值