from bs4 import BeautifulSoup as bs # import库
import urllib.request as url
quote_page = "https://toutiao.sanhao.com/m/news-detail-14099.html" # 获取网址
page = url.urlopen(quote_page) # 打开网址,保存
soup = bs(page, "html.parser") # 网址保存格式
article_link = soup.find_all("a") # 找到有链接的部分
lin = 0
links = []
while lin < len(article_link):
link = article_link[lin].get("href") # 循环,拿到所有链接内容
if link is None:
pass
elif "http" not in link: # 只要http开头的
pass
else:
links.append(link) # 放入一个list
print("网页第{}个链接抓取成功".format(lin))#告知用户
lin += 1
#确认链接
print(links)
number_of_links = len(links)
#设置一个可以放置文章的var
wenzhang = ""
paragraph_no = 0 #counter
#爬取链接中的文章
for i in range(0, number_of_links):
#初始抓取
quote_page = str(links[i]) #遍历所有链接
page = url.urlopen(quote_page)
soup = bs(page, "
很基本的一个用python抓取多个网页内文章的例子
最新推荐文章于 2024-06-19 11:36:28 发布
该博客展示了如何使用Python抓取多个网页中的文章内容,以《见字如面》节目中的书信为例,详细介绍了抓取过程,并提到了程序运行的实时状态。
摘要由CSDN通过智能技术生成