selenium 爬取cookie并且把数据下载到Excel

最新推荐文章于 2024-04-29 13:17:18 发布

Villanelle7mm

最新推荐文章于 2024-04-29 13:17:18 发布

阅读量353

点赞数

本文链接：https://blog.csdn.net/qq_42888622/article/details/106476733

版权

selenium 爬取cookie并且把数据下载到Excel

import requests
import re
import csv
import ftplib
import os
import sys
import datetime
from selenium import webdriver
import time
from selenium.webdriver.chrome.options import Options
import pandas as pd
from bs4 import BeautifulSoup
import numpy as np


#获取cookie
# 实例化一个启动参数对象
chrome_options = Options()
# 无界面运行
chrome_options.add_argument('--headless')
#Disables GPU hardware acceleration. If software renderer is not in place, then the GPU process won't launch.
chrome_options.add_argument('--disable-gpu')
path = (r'C:\ProgramData\Anaconda3\chromedriver.exe')
opener = webdriver.Chrome(executable_path=path)
opener.maximize_window()      #设置全屏
opener.get('http://erp.jetcloudmall.com:91/')    #打开网站
opener.find_element_by_xpath('//*[@id="form-username"]').send_keys('1962')     #输入账号 检查copy Xpath
opener.find_element_by_xpath('//*[@id="form-password"]').send_keys('a112')    #输入密码
opener.find_element_by_xpath('/html/body/div/div/div/div[2]/div/div[2]/form/button').click()     #点击登陆
time.sleep(5)        #睡眠5秒
#opener.find_element_by_xpath('//*[@id="side-menu"]/li[9]/a/span[1]').click()   #点击
#time.sleep(2)
#opener.find_element_by_xpath('//*[@id="side-menu"]/li[9]/ul/li[2]/a').click()       #点击
#time.sleep(3)
cookies = opener.get_cookies()#获取cookies
name_pat = "'name':.'(.*?)'"
value_pat = "'value':.'(.*?)'"
value = re.compile(value_pat).findall(str(cookies)) #compile匹配 findall找到
name = re.compile(name_pat).findall(str(cookies))
time.sleep(2)
opener.quit()   #关闭网页
#提取组合cookie
list = []
for i in range(0,len(name)):
    list1 = name[i]+'='+value[i]
    list.append(list1)
print(list)
result = list[2] + '; ' + list[1]
print(result)

my_headers1={"Cookie":result,
            "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.101 Safari/537.36",
            }
my_data1={"page":"1",
         "pageSize":"3000",
         "filter":"BeginDate~eq~'2019-04-05'~and~EndDate~eq~'2019-05-05'",
         }
#时间处理
now = datetime.datetime.now()
end_time = datetime.datetime.strftime(now, '%Y-%m-%d')
begin_time = now+ datetime.timedelta(days=-90)
begin_time1 = begin_time.strftime('%Y-%m-%d')
#下读取载数据链接
url='http://erp.jetcloudmall.com:91/PlanDeptReport/SKUDeliverySummaryDownload?a=1&BeginDate='+str(begin_time1)+'&EndDate='+str(end_time)+''
jiao = requests.get(url,data=my_data1,headers=my_headers1)

#删除读取写入
try:
    os.remove('平均交期.xlsx')
except:
    pass
with open("平均交期.xlsx", "wb") as code:#wb是二进制写入
    code.write(jiao.content)

Villanelle7mm

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
selenium 爬取cookie并且把数据下载到Excel

selenium 爬取cookie并且把数据下载到Excelimport requestsimport reimport csvimport ftplibimport osimport sysimport datetimefrom selenium import webdriverimport timefrom selenium.webdriver.chrome.options import Optionsimport pandas as pdfrom bs4 import Beau
复制链接

扫一扫