python爬虫模拟登陆Gethub并进行搜索

1. 目标 

以Github为例实现模拟登陆的过程,同时爬取登录后才可以访问的页面信息,如好友动态、个人信息。登录后可以看到这些信息,退出后就看不到这些信息了。

2. 环境准备 

安装好lxml和requests库。

3. 分析登陆过程 

   1 先退出登录,同时清除Cookies

   2 打开https://github.com/login,用Google开发者工具进行登录抓包

    3 点击登录后的抓包见下图:

Header中包括Cookies、Host、Origin、Referer、User-Agent等,带着头文件访问 登陆页面

class Login(object):
    def __init__(self):
        self.headers = {
            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
            'Accept-Encoding': 'gzip, deflate, br',
            'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
            'Connection': 'keep-alive',
            'Host': 'github.com',
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'
        }
    def get_token(self):
        # 访问GitHub的登录页面
        response = self.session.get(self.login_url,headers = self.headers)
        # 调用HTML类对HTML文本进行初始化,成功构造XPath解析对象,
        # 同时可以自动修正HMTL文本(标签缺少闭合自动添加上)
        selector = etree.HTML(response.text)
        # 解析出登陆所需的authenticity_token信息
        token = selector.xpath("//input[@name='authenticity_token']/@value")
        print(token)
        return token

                    

在登陆页面 获取 token的value 参数,表单提交数据 form data 的 authenticity_token 护眼色 前面获取的 token,后面是个 post 请求,访问携带 form_data 参数访问 ,才不会被阻拦

    def login(self):
        post_data = {
            'utf8':'✓',
            'authenticity_token':self.token,
            'login':'账号',
            'password':'密码',
        }
        response = self.session.post(self.post_url, data=post_data,headers = self.headers)
        if response.status_code == 200:
            print(response)
        else:
            print(response.status_code)

               

可以返回html看看结果 ,然后登陆 成功后,会用session 保持会话,就可以做进一步的操作,在gethub里面搜索项目或资料或者下载,尽情发挥,看到 后面的 https://github.com/search? 还有后面携带的 parameters 的参数,和前面有一配制好久可以访问了

    def search(self):
        key_name = input('搜索 Gethub项目 :')
        params = {
            "utf8": "✓",
            "q": key_name,
            "type":""
        }
        print(key_name)
        url = "https://github.com/search"
        response = self.session.get(url,headers=self.headers,params=params)
        print(response)

        return response.text

    def get_search(self,html):
        # class ="repo-list-item d-flex flex-column flex-md-row flex-justify-start py-4 public source"
        # class ="col-12 col-md-9 d-inline-block text-gray mb-2 pr-4"

        pattern = re.compile('<p class="col-12 col-md-9 d-inline-block text-gray mb-2 pr-4">(.*?)</p>',re.S)
        projects = re.findall(pattern,html)
        print(projects)

        for project in projects:
            print(project)

 

                      

最后的出的结果,可以后期进一步分析,爬取获取所有的项目,进行项目分析,哪些项目的star最多或评论最多等操作

        

 

 

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

.含笑.

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值