很基本的一个用python抓取多个网页内文章的例子

该博客展示了如何使用Python抓取多个网页中的文章内容,以《见字如面》节目中的书信为例,详细介绍了抓取过程,并提到了程序运行的实时状态。
摘要由CSDN通过智能技术生成
 from bs4 import BeautifulSoup as bs  # import库
import urllib.request as url

quote_page = "https://toutiao.sanhao.com/m/news-detail-14099.html"  # 获取网址

page = url.urlopen(quote_page)  # 打开网址,保存

soup = bs(page, "html.parser")  # 网址保存格式

article_link = soup.find_all("a")  # 找到有链接的部分

lin = 0
links = []
while lin < len(article_link):
    link = article_link[lin].get("href")  # 循环,拿到所有链接内容
    if link is None:
        pass
    elif "http" not in link:  # 只要http开头的
        pass
    else:
        links.append(link)  # 放入一个list
        print("网页第{}个链接抓取成功".format(lin))#告知用户
    lin += 1

#确认链接
print(links)
number_of_links = len(links)

#设置一个可以放置文章的var
wenzhang = ""
paragraph_no = 0 #counter

#爬取链接中的文章

for i in range(0, number_of_links):

    #初始抓取
    quote_page = str(links[i]) #遍历所有链接

    page = url.urlopen(quote_page)

    soup = bs(page, "
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值