很基本的一个用python抓取多个网页内文章的例子

最新推荐文章于 2024-06-19 11:36:28 发布

?Blurryface

最新推荐文章于 2024-06-19 11:36:28 发布

阅读量685

点赞数 1

文章标签： python html https windows

本文链接：https://blog.csdn.net/KingJacM/article/details/104338949

版权

该博客展示了如何使用Python抓取多个网页中的文章内容，以《见字如面》节目中的书信为例，详细介绍了抓取过程，并提到了程序运行的实时状态。

摘要由CSDN通过智能技术生成

 from bs4 import BeautifulSoup as bs  # import库
import urllib.request as url

quote_page = "https://toutiao.sanhao.com/m/news-detail-14099.html"  # 获取网址

page = url.urlopen(quote_page)  # 打开网址，保存

soup = bs(page, "html.parser")  # 网址保存格式

article_link = soup.find_all("a")  # 找到有链接的部分

lin = 0
links = []
while lin < len(article_link):
    link = article_link[lin].get("href")  # 循环，拿到所有链接内容
    if link is None:
        pass
    elif "http" not in link:  # 只要http开头的
        pass
    else:
        links.append(link)  # 放入一个list
        print("网页第{}个链接抓取成功".format(lin))#告知用户
    lin += 1

#确认链接
print(links)
number_of_links = len(links)

#设置一个可以放置文章的var
wenzhang = ""
paragraph_no = 0 #counter

#爬取链接中的文章

for i in range(0, number_of_links):

    #初始抓取
    quote_page = str(links[i]) #遍历所有链接

    page = url.urlopen(quote_page)

    soup = bs(page, "