python_json()爬取数据

最新推荐文章于 2024-06-18 17:19:36 发布

程序媛小姑娘

最新推荐文章于 2024-06-18 17:19:36 发布

阅读量215

点赞数

分类专栏： Python爬虫文章标签： python json

本文链接：https://blog.csdn.net/TK_Phoenix/article/details/107669263

版权

Python爬虫专栏收录该内容

14 篇文章 0 订阅

订阅专栏

import json
import time,re,datetime
from selenium import webdriver
import requests, datetime, re, time
import pandas as pd
from dateutil.relativedelta import relativedelta
from selenium.webdriver.chrome.options import Options
from pandas.core.frame import DataFrame
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
drive=webdriver.Chrome("C:/Users/Administrator/AppData/Local/Google/Chrome/Application/chromedriver.exe")
drive.get("http://xxx.com/")
drive.find_element_by_xpath('//*[@id="userName"]').send_keys('xxx')
drive.find_element_by_xpath('//*[@id="userPass"]').send_keys('xxx')
drive.find_element_by_xpath('//*[@id="login"]').click()
time.sleep(1)
cookies=drive.get_cookies()
name_pat = "'name':.'(.*?)'"
value_pat = "'value':.'(.*?)'"
value = re.compile(value_pat).findall(str(cookies))
name = re.compile(name_pat).findall(str(cookies))
drive.quit()
cookie_result=name[1]+'='+value[1]
print(cookie_result)

two=datetime.datetime.today().date() - datetime.timedelta(days=2)
dateFor1="{} 00:00".format(two)
dateTo1="{} 08:59".format(two)
print(dateFor1,type(dateTo1))
print(dateTo1,type(dateTo1))


today = []
df=DataFrame()
def Purchase(page):


    url = "http://xxxx.com/purchase/orders/list/page/"+str(page)+"/pageSize/10"
    # page += 1
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36',
        'Cookie':cookie_result

    }
    data1={
        'searchType': 'code_like',
        'sku_type': 2,
        'personType': 'pts_oprater',
        'searchDateType': 'createDate',
        'dateFor':dateFor1,
        'dateTo':dateTo1,
        'date_create': 'date_create desc'
        }

    data= requests.post(url=url, headers=headers,data=data1)

    print(data)
    res=data.json()
    res=json.dumps(res)
    res=res.replace('null','\"null\"')
    res=json.loads(res)
    print(type(res),res)

    for item in res['data']:
        today.append(item)
        print(today)

    return today


def run():

    for page in range(1,600):
        print(page)
        Purchase(page)
        mm = DataFrame(today)
        ss=pd.concat([df,mm],axis=0)

        ss.to_csv('D:/众结资料/1日常工作内容/采购单.csv', encoding='utf_8_sig', index=None)

run()