工作原因需要用到爬虫技术,所以就简单的学习了一下,本博客只用来做课程学习记录,不作为其他用途,博客中的内容是参照唐松老师的书籍<
import requests
from bs4 import BeautifulSoup
# 获取页面
link = "http://www.zwskw.com/info/cn/54" # 要获取的页面的地址
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.90 Safari/537.36 2345Explorer/9.3.3.17611'} # 头部信息
r = requests.get(link,headers = headers)
第二步:
# 提取要抓取的内容
soup = BeautifulSoup(r.text, 'lxml')
title = soup.find('div', class_='eui-news-txt').a.text.strip() # 可以运用浏览器的审查元素功能
第三步:
# 存储要抓取的内容
with open('title.txt', 'a+') as f:
f.write(title)
f.close()
最后会在python的同级目录下生成一个名称问title的txt文件,文件中的内容如下所示: