网络爬虫-distil networks反爬虫服务

抓过大量数据的童鞋应该遇见过万恶的distil networks。
这里写图片描述

划重点,该公司的反爬服务是真的“牛逼”!

这里写图片描述
这里写图片描述

验证码是这样的 –>

这里写图片描述
这里写图片描述

一个是旋转图片,一个是播报语音,想想都难受,误伤率以及体验感都会很差,但是既然买了这个服务的公司,肯定也是数据十分珍贵吧,否则也不会冒着丢失客户的风险去搞这么个反爬虫服务。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
以下是一个使用自蒸馏训练GPT模型的代码示例,供您参考: ```python import torch from transformers import GPT2LMHeadModel, GPT2Tokenizer from transformers import DistilGPT2Tokenizer, DistilGPT2Model # 加载GPT2模型和Tokenizer tokenizer = GPT2Tokenizer.from_pretrained('gpt2-medium') model = GPT2LMHeadModel.from_pretrained('gpt2-medium') # 自蒸馏 distil_tokenizer = DistilGPT2Tokenizer.from_pretrained('distilgpt2') distil_model = DistilGPT2Model.from_pretrained('distilgpt2') for param, distil_param in zip(model.parameters(), distil_model.parameters()): distil_param.data.copy_(param.data) # 在自蒸馏模型上微调 device = torch.device("cuda" if torch.cuda.is_available() else "cpu") distil_model.to(device) distil_model.train() optimizer = torch.optim.AdamW(distil_model.parameters(), lr=1e-5) for epoch in range(3): for batch in training_data: input_ids = batch['input_ids'].to(device) attention_mask = batch['attention_mask'].to(device) labels = batch['labels'].to(device) outputs = distil_model(input_ids, attention_mask=attention_mask, labels=labels) loss = outputs[0] loss.backward() optimizer.step() optimizer.zero_grad() distil_model.eval() ``` 在这个示例中,我们使用了GPT2-medium模型和DistilGPT2模型进行自蒸馏,然后在DistilGPT2模型上微调。自蒸馏的过程是将GPT2模型的参数复制到DistilGPT2模型中,然后在DistilGPT2模型上进行微调以提高性能。在微调过程中,我们使用AdamW优化器和交叉熵损失函数来训练模型。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值