Python爬虫：爬取博客

最新推荐文章于 2023-02-14 17:56:13 发布

Matthew Jiang

最新推荐文章于 2023-02-14 17:56:13 发布

阅读量1.1k

点赞数 1

分类专栏： Python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_41482303/article/details/90576044

版权

第一次玩python爬虫，盯上了实习公司官网的技术博客，页面如下：
在这里插入图片描述
查看网页源码，不难发现想要爬取的内容都位于<ul class="blog-item-contain">,只需要使用bs4的过滤功能匹配到这个标签，再分别对下面的<a>、<span>和<p>标签进行内容读取即可。

代码如下：

import requests
from bs4 import BeautifulSoup

def get_html(url):
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE'}
    resp = requests.get(url, headers=headers).text
    return resp

def html_prase():
    for url in all_page():
        soup = BeautifulSoup(get_html(url),"lxml")
        alltitle = soup.find_all('ul&#

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Matthew Jiang

关注关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫：爬取博客

第一次玩python爬虫，盯上了实习公司官网的技术博客，页面如下：查看网页源码，不难发现想要爬取的内容都位于<ul class="blog-item-contain">,只需要使用bs4的过滤功能匹配到这个标签，再分别对下面的<a>、<span>和<p>标签进行内容读取即可。代码如下：import requestsfrom bs4 imp...
复制链接

扫一扫