爬虫初探：豆瓣书籍名称爬取

行者1024

已于 2024-03-08 15:54:28 修改

阅读量23

点赞数

分类专栏：网络爬虫文章标签： python 爬虫

于 2023-04-09 14:46:40 首次发布

本文链接：https://blog.csdn.net/u010896660/article/details/130042110

版权

网络爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

给定需求：利用Python爬虫爬取豆瓣网的编程类首页书籍的名称并打印出来

问题分析：分三步骤实现获取网页内容、提取信息到列表中和输出结果。

（1）步骤1：从网络上获取编程书籍网页内容

（2）步骤2：提取网页内容中的书籍名称信息到列表中

（3）步骤3：利用数据结构展示并输出结果

代码实现：

import requests

from bs4 import BeautifulSoup

def getHTMLText(url):

    try:

        kv = {'user-agent':'Mozilla/5.0'}

        r = requests.get(url,headers=kv)

        r.raise_for_status()

        r.encoding = r.apparent_encoding

        return r.text

    except:

        return "产生异常"

def fillBookList(blist,html):

    soup = BeautifulSoup(html,"html.parser")

    for i in soup.find_all('a'):

        if i.get('title') == None:

            pass

        else:

            blist.append(i.get('title'))  

def printBookList(blist,num):

    print("{}".format("图书名称"))

    for i in range(num):

        b = blist[i]

        print("{}".format(b))

def main():

    binfo = []

    url = "https://book.douban.com/tag/%E7%BC%96%E7%A8%8B"

    html = getHTMLText(url)

    fillBookList(binfo,html)

    printBookList(binfo,20)

main()

参考资料：中国大学MOOC精品课程《Python网络爬虫与信息提取》

行者1024

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫初探：豆瓣书籍名称爬取

给定需求：利用Python爬虫爬取豆瓣网的编程类首页书籍的名称并打印出来。参考资料：中国大学MOOC精品课程《Python网络爬虫与信息提取》问题分析：分三步骤实现获取网页内容、提取信息到列表中和输出结果。（2）步骤2：提取网页内容中的书籍名称信息到列表中。（1）步骤1：从网络上获取编程书籍网页内容。（3）步骤3：利用数据结构展示并输出结果。
复制链接

扫一扫