根据关键词爬取微博文本
首先导入所使用的库
from selenium import webdriver
from lxml import html
from urllib import parse
import xlwt
from time import sleep
import datetime
设置爬取的关键词、起始年月日以及爬取的天数
et = html.etree
keyword = '海南旅游' # 爬取的关键词
y = 2011 # 起始年
m = 9 # 起始月
d = 26 # 起始日
days = 1 # 爬days天
url_keyword = parse.quote(keyword) # 将关键词转换成为网址可识别
封装日期
def getday(y, m, d, n):
the_date = datetime.datetime(y, m, d)
result_date = the_date + datetime.timedelta(days=n)
d = result_date.strftime('%Y-%m-%d')
return d
爬取——解析——存储
def p(days, x):