爬虫【进阶】(套路二)

GitHub爬虫

import requests
from bs4 import BeautifulSoup

req1 = requests.get('https://github.com/login')
soup = BeautifulSoup(req1.text, features='lxml')
tag = soup.find(name='input', attrs={'name': 'authenticity_token'})	#在源代码的form表单中
authenticity_token = tag.get('value')
cookie1 = req1.cookies.get_dict()


form_data = {
    'authenticity_token': authenticity_token,
    'commit': 'Sign in',
    'utf8': '✓',
    'login': 'fds',
    'password': 'fdsa',
    'webauthn-support': 'supported',
}

req2 = requests.post(url='https://github.com/session',data=form_data,cookies = cookie1 )
cookie2 = req2.cookies.get_dict()
cookie1.update(cookie2)

req3 = requests.get(url='https://github.com/settings/repositories',cookies = cookie1)
soup2 = BeautifulSoup(req3.text,features='lxml')
# print(soup2.text)
list_group = soup2.find(name='div', class_='col-9 float-left')

# print(list_group)
# print(list_group)
p_list = list_group.find(name = 'p',class_ = 'js-collaborated-repos-empty')
print(p_list.text)

在上面的代码中,只要是获取网页源代码form表单中的authenticity_token

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值