实现一个简单的爬虫,此处以抓取头条热榜为例,记录学习过程。
一、使用浏览器打开头条热榜页面
二、打开开发者工具,找到请求内容url
三、在页面,右键查看源码,找到要获取的内容标签
四、编写抓取代码
#爬虫demo 实现 抓取头条排行榜 #引入请求访问组件 import requests #引入html解析组件 from bs4 import BeautifulSoup #添加请求头 kv = {'user-agent': 'Mozilla/5.0'} #请求头条热榜 response = requests.get('https://tophub.today/n/x9ozB4KoXb',headers=kv) #获取请求结果并转换为html soup = BeautifulSoup(response.text, 'html.parser') #获取标签为td,class 属性为al的所有标签 tdList=soup.find_all('td',attrs={"class": "al"}) #输出标签内容 for td in tdList: print("排名"+str((tdList.index(td) + 1)), td.get_text())