python项目策划书_Python实战计划学习第一周

第二节练习项目:爬取商品信息

from bs4 import BeautifulSoup

import re # 引入正则表达式

# 本地静态网页路径

path = './index.html'

with open(path,'r') as wb_file:

wb_content=wb_file.read()

soup = BeautifulSoup(wb_content,'lxml')

pics=soup.select('body > div > div > div.col-md-9 > div > div > div > img')

titles=soup.select('body > div > div > div.col-md-9 > div > div > div > div.caption > h4 > a')

prices=soup.select('body > div > div > div.col-md-9 > div > div > div > div.caption > h4.pull-right')

stars=soup.select('body > div > div > div.col-md-9 > div > div > div > div.ratings > p:nth-of-type(2)')

reviews=soup.select('body > div > div > div.col-md-9 > div > div > div > div.ratings > p.pull-right')

for pic,title,price,star,review in zip(pics,titles,prices,stars,reviews):

data={

'pic':pic.get('src')

,'title':title.get_text()

,'price' :price.get_text()

, 'star': len(star.find_all('span','glyphicon-star'))

# 正则表达式解析数字

, 'review': int(re.search(r'(\d+)\s*.*',review.get_text()).group(1))

}

print(data)

屏幕快照 2016-05-28 下午4.25.32.png

学习了如何获取数组长度

了解基础的正则表达式知识

第三节练习项目:爬取租房信息

from bs4 import BeautifulSoup

import requests

import time

import re

def get_room_info(soup,data=None):

titles = soup.select('body > div.wrap.clearfix.con_bg > div.con_l > div.pho_info > h4 > em')

addresses = soup.select('body > div.wrap.clearfix.con_bg > d

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值