Python爬取新浪微博实时热搜榜、名人热搜榜、热点热搜榜和潮流热搜榜四大板块。这些板块都是不需要登录的,所以爬起来还是比较简单的。不过频繁的爬取会出现验证码。
作用爬取四大榜单的关键词和热搜指数并存到excel里。
下面上代码:
#coding=utf8
import requests
import re
import xlrd
import xlwt
import time
from bs4 import BeautifulSoup
myfile=xlwt.Workbook()
table1=myfile.add_sheet(u"实时热搜榜",cell_overwrite_ok=True)
table1.write(0,0,u"热搜关键词")
table1.write(0,1,u"热搜指数")
table2=myfile.add_sheet(u"热点热搜榜",cell_overwrite_ok=True)
table2.write(0,0,u"热搜关键词")
table2.write(0,1,u"热搜指数")
table3=myfile.add_sheet(u"名人热搜榜",cell_overwrite_ok=True)
table3.write(0,0,u"热搜关键词")
table3.write(0,1,u"热搜指数")
table4=myfile.add_sheet(u"潮流热搜榜",cell_overwrite_ok=True)
table4.write(0,0,u"热搜关键词")
table4.write(0,1,u