注意:
爬虫是需要基础python知识的,若没有学习过python,可见我的python入门使用系列博客:python入门使用(一):运行方式and基本命令
下面以爬取我的博客python入门使用(一):运行方式and基本命令为例来获取文章的标题名称:
1、获取页面
import requests #引入包requests
link = "https://blog.csdn.net/qq_45154565/article/details/109261945" #将目标网页的网址定义为link
# 定义请求头的浏览器代理,伪装成火狐浏览器
headers = {
'User-Agent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}
r = requests.get(link, headers= headers) #请求网页,r是requests的response回复对象,可以从中获取想要的信息
print (r.text) #r.text是获取的网页内容代码