网络爬虫(第一集:爬取网页信息)

BeautifulSoup对网页进行解析


from bs4 import BeautifulSoup

path = './web/new_index.html'
data = []

with open(path, 'r', encoding='gbk') as f:
    Soup = BeautifulSoup(f.read(), 'lxml')
    titles = Soup.select('body > div.main-content > ul > li > div.article-info > h3 > a')  # 标题
    pics = Soup.select('body > div.main-content > ul > li > img')  # 图片
    descs = Soup.select('body > div.main-content > ul > li > div.article-info > p.description')  # 简介
    rates = Soup.select('body > div.main-content > ul > li > div.rate > span')  # 分数
    cates = Soup.select('body > div.main-content > ul > li > div.article-info > p.meta-info')  # 标签

# 将多个列表组装成字典
for title, pic, desc, rate, cate in zip(titles, pics, descs, rates, cates):
    info = {
        'title': title.get_text(),
        'pic': pic.get('src'),
        'descs': desc.get_text(),
        'rate': rate.get_text(),
        'cate': list(cate.stripped_strings)
    }
    data.append(info)

for item in data:
    if len(item['rate']) >= 3:  # 大于3分的内容
        print(item['title'], item['cate'])

真实世界中的网页解析


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值