python心得笔记18.10.25

今天写了一个爬虫,是关于某机构考试题的记录一下思路和要点

2018.10.25

在同事桌子下发现一叠卡

是某培训机构的模拟考试体验卡

突然心血来潮想爬他的所有题库

然后....

这里记录一下整个思路和大致过程,作为回忆

 

为方便后来者

这里大概用到几个思路

selenium 自动化登录 取cookies
requests + cookies  直接获取html
re 清洗数据
xlwings 汇总到excel




细节部分.....
selenium 自动化登录 取cookies
from selenium import webdriver
driver = webdriver.Chrome()
driver.find_element_by_xpath('//*[@id="card_no"]').clear()
driver.find_element_by_xpath('//*[@id="card_no"]').send_keys(id)
driver.find_element_by_xpath('//*[@id="card_pwd"]').clear()
driver.find_element_by_xpath('//*[@id="card_pwd"]').send_keys(pass_word)
driver.find_element_by_xpath('//*[@id="input1"]').click()

输入账号密码 点登录后
cookies = driver.get_cookies()#获取登录之后的cookies


重点............
cookie = {}
for temp in cookies:
cookie[temp.get('name')] = temp.get('value')

这个字典才是cookies

第二部个细节...
requests + cookies  直接获取html
import requests
response = requests.get(url, cookies=cookies)# 这个cookies 是上文的cookie字典
response.encoding = 'utf-8'
html = response.text

html 就是页面所有数据

第三个正则部分就是脏活,蛮力干..我用的是re, 至于xpath 目前还很生疏,毕竟是小白,没实战过,这就没去研究

最后一部分是xlwings 的操作 摸索一下就ok了
这里贴出xlwings 的基础用法
https://www.jianshu.com/p/e21894fc5501
我这就不重复粘贴了

感谢python带给我的快乐

 










转载于:https://www.cnblogs.com/Larry-AAAAA/p/9851188.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值