第一次玩python爬虫,盯上了实习公司官网的技术博客,页面如下:
查看网页源码,不难发现想要爬取的内容都位于<ul class="blog-item-contain">
,只需要使用bs4的过滤功能匹配到这个标签,再分别对下面的<a>
、<span>
和<p>
标签进行内容读取即可。
代码如下:
import requests
from bs4 import BeautifulSoup
def get_html(url):
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.