Jerryzhangjy-CSDN博客

原创 mysql根据多个字段去重

现在在搞数据处理，里面有个数据是根据两个字段来区别是不是一样的，那如果在设计的时候没有将那两个字段设计成唯一主键，或者唯一索引，后续就要进行去重，上网查了好久，发现都没有啥好的解决方法，后来想了下，将那两个主键连接一下，然后group分组不就行了？虽然性能很弱鸡，但是这个sql我又只是用一次而已。 SELECT 字段1 , 字段2, 字段3, 字段4, concat(字段1,字段2) FROM 表名 GROUP BY concat(字段1,字段2) ; 这样就行了，

2021-03-03 17:09:25 3594 4

原创新版Jupyter Lab配置方法，修改默认工作目录，生成配置文件

新版Jupyter Lab配置方法，修改默认工作目录，生成配置文件今天在windows搞jupyter lab的配置，死活改不了工作目录，上网看的方法都是像下面这样但是就算修改了，也生效不了。。。。。后来发现，是这个生成配置文件的命令有问题，不应该是 jupyter notebook --generate-config 而是： jupyter lab --generate-config 这样生成的配置文件就是正确的记录一下，希望遇到同样问题的人可以看看 ...

2021-03-01 17:32:22 3217 2

翻译使用google的bert结合哈工大预训练模型进行中文/英文文本二分类，基于pytorch和transformer

使用bert的哈工大预训练模型进行中文/英文文本二分类，基于pytorch和transformer前提简要介绍开始导入必要的包和环境准备并读取数据导入模型的tokenizer对数据进行tokenizer，也就是分片，并加入`[CLS]`、`[SEP]`等bert的默认标签对句子进行attention_mask：分割训练数据集和验证数据集，在这将90%的进行训练，10%进行验证转换为torch tensor：使用pytorch的dataloader帮助我们进行batch_size的划分和自动化输入模型导入查看

2020-11-27 00:57:30 10516 15