自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(168)
  • 资源 (16)
  • 论坛 (1)
  • 收藏
  • 关注

原创 pandas基本操作

1、pd.merge合并时后缀设置pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,left_index=False, right_index=False, sort=True,suffixes=('_x', '_y'), copy=True, indicator=False)https://blog.csdn.net/qq_38923076/article/details/83017310(可参考.

2020-11-25 15:39:33 7

原创 bert源码详解

1、bert源码详解博客https://zhuanlan.zhihu.com/p/103226488(80% 10% 10%mask策略的具体计算逻辑;这是我影响比较深的一段代码逻辑)

2020-11-24 23:51:29 19

原创 albert每两层共享参数

1、albert的原始实现(brightmart实现)def transformer_model(input_tensor, attention_mask=None, hidden_size=768, num_hidden_layers=12, num_attention_heads=12,

2020-11-24 22:47:57 17

原创 linux命令-diff对比两个文件

1、两个文件1.txt 2.txt内容如下所示1.txt文件内容 2.txt文件内容1 12 23 84 4 5 66 7 2、输入命令diff 1.txt 2.txt得到如下结果:3c3< 3---&g...

2020-11-20 00:17:54 51

原创 模型压缩文章总结

1、模型压缩好文章汇https://zhuanlan.zhihu.com/p/94359189(tinybert)在统计学中,均方误差(英语:mean-square error、MSE)是对于无法观察的参数X的一个估计函数T;其定义为:MSE(T)=E((X-T)^2)在文中针对各层介绍了几种损失函数:1、embedding层:teacher和student的词嵌入层的蒸馏均方误差损失2、transform层蒸馏:隐层损失和attention损失3、预测层损失,teache.

2020-11-18 20:53:43 14

原创 linux处理数据-1

1、帮助命令man/info/whatiseg:man ls详情可看:https://linuxtools-rst.readthedocs.io/zh_CN/latest/base/01_use_man.html2、目录和文件常见操作文件管理:创建mkdir/添加vim/删除rm/重命名mv/查看路径pwd/查看路径中文件ls文件的查询和检索: find/ locate ; find 目录 -name '正则匹配'查看文件内容:cat /vim/tail /more/head..

2020-11-16 23:41:49 10

原创 iterm2安装与配置

1、下载iTerm2iTerm2下载地址:https://www.iterm2.com/downloads.html2、配置iTerm2主题iTerm2最常用的主题是Solarized Dark theme。1.按Command + ,快捷键打开iTerm2,打开iTerm2的偏好设置 2.定位到Profiles -> Colors -> Color Presets路径,选择Solarized Dark主题。3、配置Oh My Zsh设置 ohmyzsh地址:h...

2020-11-15 19:46:59 26

原创 linux去重统计

https://blog.csdn.net/feng973/article/details/73849586

2020-11-13 14:06:06 14

原创 其他编程题专题

56. 合并区间给出一个区间的集合,请合并所有重叠的区间。示例 1:输入: intervals = [[1,3],[2,6],[8,10],[15,18]]输出: [[1,6],[8,10],[15,18]]解释: 区间 [1,3] 和 [2,6] 重叠, 将它们合并为 [1,6].示例2:输入: intervals = [[1,4],[4,5]]输出: [[1,5]]解释: 区间 [1,4] 和 [4,5] 可被视为重叠区间。注意:输入类型已于2019年4月15日.

2020-11-11 23:15:03 11

原创 滑动窗口专题

1、滑动窗口要素双向指针,条件判断,暴力求解2、模板3、实例167. 两数之和 II - 输入有序数组给定一个已按照升序排列的有序数组,找到两个数使得它们相加之和等于目标数。函数应该返回这两个下标值 index1 和 index2,其中 index1必须小于index2。说明:返回的下标值(index1 和 index2)不是从零开始的。你可以假设每个输入只对应唯一的答案,而且你不可以重复使用相同的元素。示例:输入: numbers = [2, 7, 1...

2020-11-10 23:55:01 78

原创 flask学习资源

http://docs.jinkan.org/docs/flask/ (同事推荐的入门学习教程,先记录下)

2020-11-03 10:59:13 14

转载 hash散列冲突解决方法

什么是hash冲突?假设hash表的大小为9(即有9个槽),现在要把一串数据存到表里:5,28,19,15,20,33,12,17,10简单计算一下:hash(5)=5, 所以数据5应该放在hash表的第5个槽里;hash(28)=1,所以数据28应该放在hash表的第1个槽里;hash(19)=1,也就是说,数据19也应该放在hash表的第1个槽里——于是就造成了碰撞(也称为冲突,collision)。常用的Hash冲突解决方法有以下几种:1.开放定址法这种方法也称再散列法,其基本思想

2020-10-26 23:39:02 32

原创 Albert详解

https://zhuanlan.zhihu.com/p/108105658(albert两个修改点详解,权重共享,因式分解)

2020-10-26 18:03:55 14

原创 文本相似度

相关综述:https://www.cnblogs.com/xlturing/p/6136690.html

2020-10-25 13:29:07 5

原创 预训练综述

一、简介1.1、预训练影响: ELMo/GPT/BERT预训练模型的相继提出,NLP找到了可以像计算机视觉那样的迁移学习方法。NLP领域预训练模型,采用自监督 学习方法,将大量无监督文本送入模型中进行学习,得到可通用的预训练模型。NLP领域有大量的无监督学习数据。大量研究工作表明,大量的数据可以不断提高模型的性能表现,与此同时压缩模型参数也成为研究热点,例如ALBERT,ELECTRA。预训练和模型压缩引导NLP将大量非监督文本充分利用起来,进行语言知识编码,指导下游NLP任务。...

2020-10-24 15:20:19 97

原创 Horovod分布式相关策略

https://github.com/horovod/horovod(Horovod github代码)https://zhuanlan.zhihu.com/p/45439173 (Horovod 通信策略)https://zhuanlan.zhihu.com/p/40578792 (Horovod-基于TensorFlow分布式深度学习框架)

2020-10-24 00:35:34 20

原创 自然语言处理相关书整理

很多自然语言相关的电子书 (百度网盘地址,里面需要付费,但是不太贵,有需要的可以自取)https://www.yuque.com/mathpythondata/kt4xgg/lz8z6d

2020-10-23 23:35:10 21

原创 rar在mac下解压

1、下载rarosx-5.6.0 .tar.gz2、解压tar -zxvfrarosx-5.6.0 .tar.gz3、进入目录输入如下命令sudo install -c -o jsy rar /usr/local/bin/sudo install -c -o jsy unrar /usr/local/bin/参考:https://zhuanlan.zhihu.com/p/39753134...

2020-10-23 23:00:02 12

原创 字符串专题

3. 无重复字符的最长子串难度:中等题目描述给定一个字符串,请你找出其中不含有重复字符的 最长子串 的长度。示例 1:输入: "abcabcbb"输出: 3 解释: 因为无重复字符的最长子串是 "abc",所以其长度为 3。示例 2:输入: "bbbbb"输出: 1解释: 因为无重复字符的最长子串是 "b",所以其长度为 1。示例 3:输入: "pwwkew"输出: 3解释: 因为无重复字符的最长子串是 "wke",所以其长度为 3。 请注意,你的

2020-10-20 00:47:27 14

原创 pyspark报错Java gateway process exited before sending the driver its port number

pyspark报错Java gateway process exited before sending the driver its port number解决方案:https://www.cnblogs.com/pythoner6833/p/10241034.html

2020-10-19 18:08:19 19

原创 树专题

1、树基本概念给定一个无向图G,如果:i)G是连通的;ii)G是无环的,则G是一棵树。满二叉树:叶子节点全都在最底层,除了叶子节点之外,每个节点都有左右两个子节点 完全二叉树:叶子节点都在最底下两层,最后一层的叶子节点都靠左排列,并且除了最后一层,其他层的节点个数都要达到最大 二叉查找树:Binary Search Tree,二叉查找树要求,在树中的任意一个节点,其左子树中的每个节点的值,都要小于这个节点的值,而右子树节点的值都大于这个节点的值 平衡查找树:二叉树中任意一个节点的左右子树的高度

2020-10-16 00:26:52 44

原创 markdown基本操作教程

markdown编写教程:https://www.runoob.com/markdown/md-advance.htmlmarkdown颜色设置:https://www.runoob.com/markdown/md-advance.html

2020-10-15 17:31:43 31

原创 C4框架图

https://cloud.tencent.com/developer/article/1500293

2020-10-15 17:25:21 41

原创 tf.cast

tf.cast可以改变tensor的数据类型。tf.cast( x, dtype, name=None)eg:x = tf.constant([2.1, 2.1], dtype=tf.float32)y=tf.cast(x, tf.int32) # [2, 2], dtype=tf.int32with tf.Session() as sess: print(sess.run(x)) print(sess.run(y)) ...

2020-10-14 11:04:02 15

原创 链表专题

1、链表链表有单链表,双链表,环形链表;链表主要功能是将离散的地址通过指针连接起来。2、

2020-10-13 23:50:27 72

原创 tensorflow入门

学习网址:http://c.biancheng.net/tensorflow/

2020-10-13 11:22:36 12

原创 vim缩进

:1,10>第1行至第10行缩进:1,10<第10行至第10行反缩进注意,前面的“:”号代表的是命令模式

2020-10-12 23:07:45 12

原创 dfs与bfs搜索专题

1、dfs与bfsdfs与bfs一般存在于树搜索和图搜索中,dfs一般以递归的方式实现;bfs用一队列来进行搜索;数一般以链表的方式存储;图存储一般有两种方式:邻接矩阵,邻接表。回溯法 :一种通过探索所有可能的候选解来找出所有的解的算法。如果候选解被确认不是一个解的话(或者至少不是最后一个解),回溯算法会通过在上一步进行一些变化抛弃该解,即回溯并且再次尝试。https://leetcode-cn.com/problems/permutations/solution/quan-pai-lie-by-le

2020-10-12 00:49:42 23

原创 bert生成词向量

参考网址:https://www.jianshu.com/p/fbde57f91f0f

2020-10-11 19:43:29 86

原创 动态规划专题

1、动态规划要素动态规划的三要素:最优子结构,边界和状态转移函数,最优子结构是指每个阶段的最优状态可以从之前某个阶段的某个或某些状态直接得到(子问题的最优解能够决定这个问题的最优解),边界指的是问题最小子集的解(初始范围),状态转移函数是指从一个阶段向另一个阶段过度的具体形式,描述的是两个相邻子问题之间的关系(递推式)  重叠子问题,对每个子问题只计算一次,然后将其计算的结果保存到一个表格中,每一次需要上一个子问题解时,进行调用,只要o(1)时间复杂度,准确的说,动态规划是利用空间去换取时间的算法.

2020-10-10 09:36:51 59 1

原创 二分专题

1、二分性质70%单调性 95%存在两段性2、二分模板3、相关题目69.实现 int sqrt(int x) 函数。计算并返回 x 的平方根,其中 x 是非负整数。由于返回类型是整数,结果只保留整数的部分,小数部分将被舍去。示例1输入: 4输出: 2示例2输入: 8输出: 2说明: 8 的平方根是 2.82842..., 由于返回类型是整数,小数部分将被舍去。思路:1、确定二分的边界, 0-x之间2、编写二分的代码框架3、设计check函数4、确定.

2020-10-10 09:05:02 41

原创 spark之常见的机器学习算法

1、分类、回归、聚类分类回归是一种重要的机器学习和数据挖掘技术。分类的目的是根据数据集的特点构造一个分类函数或分类模型(也常常称作分类器),该模型能把未知类别的样本映射到给定类别中的一种技术。即: 向量X=[x1,x2...xn]但标签C=[c1,c2...,ck]的映射F(W,X)=C聚类是一种无监督学习的方法,将无标签数据聚类到不同的簇中spark.ml支持的分类与回归算法2、常见算法实例介绍2.1、逻辑回归:2.1.1、逻辑斯蒂分布2.1.2、二项LR:

2020-10-05 11:26:30 55

原创 spark之特征提取

1、特征处理分类特征抽取:从原始数据中抽取特征特征转换:特征的维度、特征的转化、特征的修改特征选取:从大规模特征集中选取一个子集2、特征提取2.1、TF-IDF词频-逆向文件频率;词频TF(t,d)是词语t在文档d中出现的次数。文件频率DF(t,D)是包含词语的文档的个数。tf=|t|/|d|tf-idf=tf*idf公式中使用log函数,当词出现在所有文档中时,它的IDF值变为0。加1是为了避免分母为0的情况。Spark.mllib 中实现词频率统计使用特征has.

2020-10-03 23:56:27 43

原创 spark之MLLIB

一、MLlib简介MLlib是Spark的机器学习(Machine Learning)库,旨在简化机器学习的工程实践工作,并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。具体来说,其主要包括以下几方面的内容:算法工具:常用的学习算法,如分类、回归、聚类和协同过滤; 特征化工具:特征提取、转化、降维,和选择工具; 管道(Pipeline):用于构建、评估和调整机器学习管道的工具; 持久性:保存和加

2020-10-03 21:13:04 30

原创 spark之DataFrame

1、DataFrame的优点DataFrame的推出,让Spark具备了处理大规模结构化数据的能力,不仅比原有的RDD转化方式更加简单易用,而且获得了更高的计算性能。Spark能够轻松实现从MySQL到DataFrame的转化,并且支持SQL查询。...

2020-10-02 21:41:32 24

原创 spark之mysql驱动配置

1、直接启动时加载配置可以参考http://dblab.xmu.edu.cn/blog/1724-2/;启动pyspark时,必须指定mysql连接驱动jar包。cd /usr/local/spark./bin/pyspark \--jars /usr/local/spark/jars/mysql-connector-java-5.1.40/mysql-connector-java-5.1.40-bin.jar \--driver-class-path /usr/local/spark/ja

2020-10-02 20:20:09 76

原创 spark之键值对RDD

1、键值对RDD生成方式1.1、通过map函数来生成通过map函数将x映射为(x,1)#在本地进行操作textFile = sc.textFile("file:///home/jsy/spark_test/test.txt")wordCount = textFile.flatMap(lambda line: line.split(" ")).map(lambda x:(x,1))2、常用键值对转换方式常用的键值对转换操作包括reduceByKey()、groupByKey()、so

2020-10-01 22:37:05 20

原创 spark之RDD

1、生成RDD从文件读数据2、RDD的3种运算

2020-09-29 10:30:10 27

原创 spark学习

1、python为数据而生相关包numpy scipy matplotlib2、spark介绍内容3、mapreduce的局限性4、spark优势spark5、RDDhttps://www.bilibili.com/video/BV1fE411f7uH?p=2(spark视频)

2020-09-29 01:00:51 22

原创 主动学习

1、为什么要提出主动学习 减少标注的代价,快速提高模型的判别能力参考https://zhuanlan.zhihu.com/p/39367595(主要讲了主动学习英应用的场景和常见的策略,常见的策略讲的较为粗略)https://www.zhihu.com/question/265479171(主动学习的方法详细介绍)https://www.sohu.com/a/228466371_99940985(主动学习与半监督算法结合在支付宝风控的应用)https://www.rc...

2020-09-28 18:27:02 31

EDA课后习题答案

EDA技术实用教程课后答案 潘松版 第三版 1 pdf

2014-11-14

计算机操作系统课后答案.doc

计算机操作系统课后答案.doc 详细,经典

2014-11-14

谢希仁计算机网络第五版课后习题答案 1 6章 doc

谢希仁计算机网络第五版课后习题答案 1 6章 doc

2014-11-14

JAVA课后习题答案.doc

JAVA课后习题答案.doc第一章 Java语言概述2.“java编译器将源文件编译为的字节码文件是机器码”这句话正确吗? 答:不正确 3.java应用程序的主类必须含有怎样的方法? 答:含有main方法

2014-11-14

JDBC访问数据库

JDBC访问数据库 实验 1 通过 JDBC 数据库访问数据库

2014-11-14

Web开发人员看的HTML5教程 PDF

HTML5教程,web开发人员很好的选择

2014-10-08

PowerDesigner 15.1破解文件.rar

数据库概念模型,物理模型等模型构建软件powerdesigner的插件

2014-10-08

sql-server-jar

Eclipse或者MyEclipse连接sql server2000或者sql sever2005的三个jar包。

2014-10-08

数据挖掘概念与技术课后习题答案

数据挖掘概念与技术课后习题答案,第二版,韩家伟著,机械工业出版社

2014-10-08

PowerDesigner教程

PowerDesigner画E-R图详细教程最完整

2014-10-08

OSChina 娱乐弹弹弹

用Java实现的宾馆客房管理系统(包含课程设计报告).rar )

2014-10-08

项目综合开发

项目综合开发,Java sql sever酒店管理系统项目开发,附有介绍文档。

2014-10-08

Java酒店管理系统

Java酒店管理系统附设计文档.rar。

2014-10-08

数据挖掘概念与技术

数据挖掘概念与技术第二版和第三版(包含课后答案).rar )

2014-10-08

基于Java和SQL的酒店管理系统

基于Java和SQL2000的酒店管理系统,功能强大,界面漂亮,代码完善,要做课设的可以参考,参考。

2014-09-22

KTV歌曲管理系统报告.rar

KTV歌曲管理系统,软件工程课程设计可用,还比较详细

2015-05-12

增加数据,模型的效果一定会变好吗?

发表于 2020-09-29 最后回复 2020-09-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除