python3博客园_python3: 博客园列表爬取；

最新推荐文章于 2023-10-05 16:03:58 发布

weixin_39963341

最新推荐文章于 2023-10-05 16:03:58 发布

阅读量54

点赞数

文章标签： python3博客园

本文链接：https://blog.csdn.net/weixin_39963341/article/details/111853500

版权

import requests

from bs4 import BeautifulSoup as bs

import html5lib

header = {

‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.96 Safari/537.36‘

}

def download():

"""

模拟浏览器进行访问；

:param url:

:return:

"""

for pageIdx in range(1, 5, 1):

#print(pageIdx)

url = "https://www.cnblogs.com/sitehome/p/%s" % str(pageIdx)

try:

r = requests.get(url, timeout=30)

r.raise_for_status()

r.encoding = r.apparent_encoding

data = r.text

except:

return

content = bs(data, ‘html5lib‘)

for ctx in content.find_all(‘h3‘):

print(ctx.a[‘href‘], ctx.a.string)

if __name__ == "__main__":

download()

原文：https://www.cnblogs.com/yinwei-space/p/9320784.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注