python网络爬虫:实现百度热搜榜前50数据爬取,生成CSV文件

使用python爬虫:实现百度热搜榜前50数据爬取,生成CSV文件


爬虫新手,边学边用,尝试着爬取百度热搜榜前50的数据,将数据以CSV文件格式保存下来,并以爬取时间作为文件名保存。

(一)代码

from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.support.wait import WebDriverWait
import csv
import datetime

url="http://top.baidu.com/buzz?b=1&fr=topindex"
result=[]

def get_rank(driver):
	driver.get(url)
	html=driver.page_source
	sp=BeautifulSoup(html,'lxml')
	#挑选所有tr标签
	list=sp.find_all('tr')
	
	#挑选排名、标题、热点
	for each in list:
		rank=each.find('span',{'class':'num-top'})
		if rank!=None:
			key=each.find('a',{'class':'list-title'})
			point=each.find('span',{'class':["icon-fall","icon-rise"]})
			result.append([rank.string,key.string,point.string])
			continue
		rank=each.find('span',{'class':'num-normal'})
		if rank!=None:
			key=each.find('a',{'class':'list-title'})
			point=each.find('span',{'class':["icon-fall","icon-rise"]})
			result.append([rank.string,key.string,point.string])
			continue

def save_rank(result):
	headers=['排行','标题','热度']
	now_time=datetime.datetime.now().strftime('%Y%m%d_%H%M')
	#创建以时间命名的文件
	filename=now_time+'.csv'
	with open(filename,'a',newline="",encoding='utf-8-sig')as csvfile:
		write=csv.writer(csvfile)
		write.writerow(headers)
		write.writerows(result)

def main():
	driver=webdriver.Chrome()
	wait=WebDriverWait(driver,10)
	get_rank(driver)
	save_rank(result)
	driver.quit()

main()

(二)结果

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值