clearlove100-CSDN博客

原创解决git 提交 Checks failed: 44 TODO 问题

解决git 提交 Checks failed: 44 TODO 问题

2022-08-01 15:38:52 3637 2

原创 ckpt转bin模型报错解决：AttributeError: ‘BertForPreTraining‘ object has no attribute ‘shape‘ #393

ckpt转bin模型报错解决：AttributeError: 'BertForPreTraining' object has no attribute 'shape' #393

2022-07-05 09:49:46 1076

原创 transformer的Trainer中加入compute_metrics

from transformers import DistilBertForSequenceClassification, Trainer, TrainingArgumentsdef compute_metrics(pred): labels = pred.label_ids preds = pred.predictions.argmax(-1) precision, recall, f1, _ = precision_recall_fscore_support(labels,.

2021-10-20 11:42:51 5496 2

原创 json.loads解析str中存在单引号的问题

两种方式如str为{'类': '家用', '类目': '电'}1.eval函数（推荐）eval(str)['name'])2.将单引号替换为双引号，但有时候文本中会存在额外的单引号，会导致错误json.loads(str.replace("'", "\""))['name'])...

2021-09-24 11:47:25 830

原创翻译的两种实现方式——基于transformers

1.基于pipeline(可加参数 device,默认为-1,使用cpu，如果非负，则表示指定哪块gpu)from transformers import ( AutoTokenizer, AutoModelForSeq2SeqLM, pipeline)text = "从时间上看，中国空间站的建造比国际空间站晚20多年。"tokenizer = AutoTokenizer.from_pretrained("./Helsinki-NLP/opus-mt-z.

2021-09-13 16:42:02 1925

原创正则方式提取html格式的文本内容

s = s.replace('\r\n', '').replace(' ', '').replace('\xa0', '').replace('\t', '').replace('\u3000', '')import rere.sub(r'<.*?>', "", s)

2021-08-11 15:19:15 1022

原创 bert实现断点继续训练与增量训练

设第一次训练的epoch为1，在output文件下自动保存断点，下次执行，如果epochrengwe下次默认从断点开始训练。因此重新训练需要删除output中的数据。

2021-06-17 11:22:50 1432

原创 python df list array 数据清洗、处理的一些常用代码

1.df中的数据以分隔符拆分tmp = []for i in range(len(data)): tmp.append(data.iloc[i][0].split(":"))tmp2.tmp（list类型）变为df，合并df，加上df列名data_output_split = pd.DataFrame(tmp[:])# 合并两个dfdf = pd.concat([data_y,data_output_split],axis=1)df.columns = ['test_y',

2021-05-07 15:16:27 1091

原创 TensorFlow-gpu 2.2安装

一、安装tensorflow-gpu=2.2.0使用清华源安装，代码如下：pip install tensorflow-gpu==2.2.0 -i https://pypi.tuna.tsinghua.edu.cn/simple二、一般需要cuda是10.1或者以上就可以了。然后一句代码安装：conda install cudatoolkit=10.1 cudnn=7.6.5测试代码：import tensorflow as tfif tf.test.gpu_device_na

2021-04-13 18:50:32 372 1

原创 collections.defaultdict() 和 dict.values()与*dict.values() 的区别

from collections import defaultdicts=[('yellow',1),('blue', 2), ('yellow', 3), ('blue', 4), ('red', 1)]d=defaultdict(list)for k, v in s: d[k].append(v) a=sorted(d.items())print(a)[('blue', [2, 4]), ('red', [1]), ('yellow', [1, 3])]print(.

2020-12-11 09:33:36 384

原创 FAILED: SemanticException Please load into an intermediate table and use ‘insert... select‘ to allow

# 创建分桶表hive (mydb)> create table if not exists course( > id int, > name string, > score int > ) > clustered by (id) into 3 buckets > row format delimited &.

2020-12-07 20:19:41 825

原创 Permission denied

mysql数据中的user表中当Host设定%后，即任何主机都能访问可以把其它User为root，Host为localhost等主机名删除delete from user where Host=‘Host名字’

2020-12-02 21:14:12 133

原创 Underlying cause: java.sql.SQLException : Access denied for user ‘root‘@‘hadoop2‘ (using password: Y

Hive 中的hive-site.xml 配置文件，一定要写成localhost，不能直接写ip，否则就报如上的错误<property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value> <description>J...

2020-12-01 20:01:22 1488 2

原创最长回文子串 python注释版

def longestPalindrome(s: str): # 优先选择长度长的子串作判断 for j in range(len(s), -1, -1): for i in range(len(s) - j, -1, -1): if (s[i:i + j]) == s[i:i + j][::-1]: return s[i:i + j][::-1]

2020-11-03 12:41:52 102

原创 IDEA上开发spark配置教程

1.配置scala2.配置Maven，settings里配置镜像3.pom.xml放入依赖，然后在Maven那边clean 并 install这些依赖4.IDEA在windows上配置spark开发环境https://blog.csdn.net/weixin_42194781/article/details/1015604405.如果看源码的时候，只显示函数的名称，可以下载spark的源码，然后点choose资源，选择spark源码的路径...

2020-09-21 09:21:52 447

原创 Caused by: org.apache.flink.runtime.JobException: Recovery is suppressed by NoRestartBackoffTimeStra

开发环境（maven）与分布式环境的版本没有对应开发环境 scala2.12 但用了scala 2.11 与 flink 的maven分布式环境 scala2.12 flink 1.10.2导致了出错

2020-09-02 16:36:11 17259 4

原创合并一个目录下的所有csv文件

# -*- coding: utf-8 -*-import pandas as pdimport os# 设定所有文件存放路径save_path='./data_networkflow/test/'# 设定合并数据集存放路径save_merge_path='./data_networkflow/test/'def concat_df(save_path,save_merge_path): frames = [] """合并数据框""" for parent, .

2020-07-28 14:44:07 1125 1

原创 Can‘t find model ‘en‘. It doesn‘t seem to be a shortcut link

pip install spacy 后python -m spacy download en 连接失败可以从以下百度云下载链接：https://pan.baidu.com/s/1RDOFwLk3r00l5nqMa3eHOQ提取码：dtwx复制这段内容后打开百度网盘手机App，操作更方便哦接着将三级子目录的文件拷贝到你的项目下改名为en就大功告成了...

2020-07-10 15:02:23 444 2

原创 windows10配置TensorFlow-gpu 1.14版本

windows10 安装亲测以下版本能成功TensorFlow-gpu 1.14 python 3.7 Cuda10.0 Cudnn 7.4参考博客：https://blog.csdn.net/qq_35077107/article/details/94555320?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.nonecase&depth_1-utm_sou..

2020-07-01 19:24:57 1272

原创如何快速在指定文件夹打开jupyter notebook

1.在你指定的文件夹输入cmd，然后enter2.然后在cmd中输入jupyter notebook，就可以直接在指定文件夹打开jupyter notebook

2020-06-22 14:50:15 4343 2

原创 spark-shell 系统找不到指定的路径最新解决办法

环境变量中注意这个顺序%SPARK_HOME% 尽量放在PATH的最前面接下来是%JAVA_HOME%%HADOOP_HOME%%SCALA_HOME%我一开始SCALA_HOME放在HADOOP_HOME前面也报了一样的错误

2020-06-19 20:31:05 4055

原创分布式hadoop安装配置教程（在伪分布式hadoop基础上）

前提：已搭建配置好一个伪分布式hadoop配置 hadoop 用户、安装 SSH server、安装 Java 环境、安装 Hadoop 等过程已经在Hadoop安装教程_单机/伪分布式配置http://dblab.xmu.edu.cn/blog/install-hadoop/或CentOS安装Hadoop_单机/伪分布式配置http://dblab.xmu.edu.cn/blog/install-hadoop-in-centos/中有详细介绍，请前往查看，不再重复叙述。流程：1.克隆...

2020-05-26 15:21:21 300

原创 django 去掉!DOCTYPE html PUBLI 加载出来的网页展示格式还是不对

千万要尝试换一个浏览器试试，换一个浏览器可能就200了，而不是304！千万要尝试换一个浏览器试试，换一个浏览器可能就200了，而不是304！千万要尝试换一个浏览器试试，换一个浏览器可能就200了，而不是304！千万要尝试换一个浏览器试试，换一个浏览器可能就200了，而不是304！千万要尝试换一个浏览器试试，换一个浏览器可能就200了，而不是304！我是先用360浏览器打开...

2019-11-11 19:37:40 287

转载 mysql8.0版本下命令行mysqld –skip-grant-tables 失效，无法登陆的问题

https://blog.csdn.net/qq_33337277/article/details/814547001、管理员权限登陆cmd，不会使用管理员登陆的请搜索cmd，搜索结果右键。2、命令行输入：net stop mysql;然后提示。服务停止中 --> 服务已停止，如出现其他错误请百度。这只是一个示例，请在服务中查看服务具体名称，比如我的就是mysql57...

2019-10-21 12:35:38 724

原创 Exception: Java gateway process exited before sending its port number（求大佬帮忙解决，没有the drivers）

2019-08-29 10:05:40 650 2

原创安装java的jdk时要求我关闭什么java platform SE binary(Process Id : 5240) 的解决办法

先看安装的问题件是不是空文件夹，不是的话换一个空文件夹就能解决，要英文路径

2019-08-22 13:58:35 8281 13

原创初始化一个为空值的list表格

a = [[0 for i in range(15)] for j in range(8)]#初始化为8*15的一个0值矩阵

2019-07-26 13:35:56 2439

原创 Scala的下载与安装

JDK下载地址：（1.8.0）http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.htmlwin7配置jdk：https://jingyan.baidu.com/article/b2c186c8038d4bc46ff6ff5d.htmlScala下载:（2.1）htt...

2019-07-25 16:09:05 205

原创 Spark安装配置问题以及常用命令教程

安装指南：http://dblab.xmu.edu.cn/blog/804-2/火狐浏览器官网下载spark会遇到问题：安全连接失败连接 www.apache.org 时发生错误。无法安全地与对端通信：没有双方共用的加密算法。（错误码： ssl_error_no_cypher_overlap）解决方法：可以下载镜像文件来解决spark镜像下载地址，下载spark2....

2019-07-25 14:24:52 331

转载大数据软件安装和编程实践指南（在本地电脑安装，适合绝大多数学习者）

学习指南：http://dblab.xmu.edu.cn/post/5663/包括以下：在安装下载过程中，如果出现学习指南没有提到的问题，可参考我的其他博客，我把我遇到的其他问题都记录了下来，并提出了解决方案，希望能帮到大家~...

2019-07-25 13:23:19 627

原创 Hbase安装配置问题以及常用命令教程

注意点：搭建Hbase的时候把虚拟机设置成至少两个处理器不然会导致安装和配置环境的错误Hbase 镜像下载地址 (下载2.0.5，下载不同的版本会导致配置环境的错误，可以多尝试几个版本）http://mirror.bit.edu.cn/apache/hbase/Hbase学习指南：http://dblab.xmu.edu.cn/blog/install-hbase/...

2019-07-24 16:13:14 176

原创二分法 python实现

def er(do,up,num): if up==do: print("shuzishi:",up) else: i=(up+do)//2 #//整数除法 if num>i: return er(i+1,up,num) else: return er(d...

2019-07-23 19:41:58 302

原创 centos7.0上HDFS和Eclipse安装配置问题总结

总教程http://dblab.xmu.edu.cn/blog/290-2/存在的问题：在centos7.0上没有软件中心可以直接下载eclipse，然而官网也下载不了之后查询了大量资料，发现了：http://mirrors.ustc.edu.cn/eclipse/technology/epp/downloads/release/在中科大源文件下载eclipse（这样速度快，下...

2019-07-23 14:07:12 270

转载 Enumerate ，numpy.bincount()函数

1.Enumerate 函数>>>seq = ['one', 'two', 'three']>>> for i, element in enumerate(seq): Print I, element...0 one1 two2 three2.numpy.bincount()函数

2019-07-23 09:59:07 196

转载 datasets_fetch_lif_people源码阅读以及代码运行错误问题

1.datasets.fetch_lfw_people源码阅读笔记def fetch_lfw_people(data_home=None, funneled=True, resize=0.5, min_faces_per_person=0, color=False, slice_=(slice(70, 195...

2019-07-23 09:42:42 597

转载 PyCharm 2019.1 汉化包

PyCharm 2019.1 汉化包不会导致设置打不开的问题转载自作者：平方X文章：https://blog.csdn.net/pingfangx/article/details/78826155

2019-07-22 14:45:33 9580

原创伪分布式Hadoop安装配置问题以及常用命令教程

搭建伪分布式hadoop流程总结首先hadoop必须搭建在Linux系统上一.本文用的虚拟机是VMware 15附：VMware 15 安装破解教程https://blog.csdn.net/qq_41785863/article/details/83620557二.之后当然需要在虚拟机上Linux系统本文用的是centos 7.0附：centos.7.0下载地址ht...

2019-07-22 14:41:23 337

clearlove100的博客