我是本着最基本的逻辑出发
我使用的Python版本是3.7.8
首先,创建一个工作表(方法一)
import requests
import xlwt
from bs4 import BeautifulSoup
def getHtml():
#创建工作表
k=1
f = xlwt.Workbook()
sheet = f.add_sheet("北京微博签到一览")
rowtitle = ['name','addr','content']
for i in range(0,len(rowtitle)):
sheet.write(0,i,rowtitle[i])
方法二
import pandas as pd
datalist=[]
datalist.append([name,addr,content])
print(datalist)
lie = ['name','content','addr']
test = pd.DataFrame(datalist,columns=lie)
test.to_csv('./test1.csv',index=False)
2. 实现下拉进度条向下翻页
我用的谷歌浏览器版本是73.0.3683.75
selenium对应的包,
想使用则需要卸载现有谷歌浏览器,安装对应的版本
from selenium import webdriver
browser = webdriver.Chrome(chrome_options=chrome_options,executable_path=driver_path)
browser.execute_script('window.scrollTo(0,document.body.scrollHeight)') # 下拉进度条
time.sleep(10)
browser.execute_script('window.scrollTo(0,document.body.scrollHeight)')
time.sleep(10)
如果之后遇到动态爬虫,则需要添加代理,代理池在redis的构建见后面更新