杨一如-CSDN博客

转载 Java中接口是如何实现多态的特性的

转自：https://www.cnblogs.com/1693977889zz/p/8298240.htmlJava中接口是如何实现多态的特性的Java中多态是个很难理解的概念，但同时又是非常重要的概念，Java三大特性（封装、继承、多态）之一，我们从字面上理解，就是一种类型的多种状态，一下通过卖小汽车的例子再次说明什么是多态，其中利用到了接口。代码实例：//汽车接口inte...

2018-08-13 16:30:24 654

转载 Java集合类: Set、List、Map、Queue使用场景梳理

转自：https://www.cnblogs.com/LittleHann/p/3690187.htmlJava集合类: Set、List、Map、Queue使用场景梳理本文主要关注Java编程中涉及到的各种集合类，以及它们的使用场景相关学习资料http://files.cnblogs.com/LittleHann/java%E9%9B%86%E5%90%88%E6%8E%92%...

2018-08-13 16:21:07 192

转载中文分词简单小结

中文分词实现原理：1、基于词典分词算法也称字符串匹配分词算法。该算法是按照一定的策略将待匹配的字符串和一个已建立好的“充分大的”词典中的词进行匹配，若找到某个词条，则说明匹配成功，识别了该词。常见的基于词典的分词算法分为以下几种：正向最大匹配法、逆向最大匹配法和双向匹配分词法等。基于词典的分词算法是应用最广泛、分词速度最快的。很长一段时间内研究者都在对基于字符串匹配方法进行优化，比如最...

2018-08-12 17:34:37 846

原创 PCA SVD TSVD

一、PCA数学推导过程：假设有n×d矩阵X，每一行是一个d维样本xi，寻找投影方向vj以最大化投影方差： λj是特征向量vj对应的特征值。可以发现当投影方向是CC的最大特征值对应的特征向量时，投影方向上数据的方差最大。所以用PCA进行降维时通常选取较大特征值对应的特征向量作为投影方向：XVk，Vk是最大的k个特征值对应的特征向量矩阵。代码实现：#零均值化def zero...

2018-08-12 16:14:45 4029

转载从特征分解到协方差矩阵：详细剖析和实现PCA算法

原文地址：https://www.jiqizhixin.com/articles/2017-07-05-2从特征分解到协方差矩阵：详细剖析和实现PCA算法本文先简要明了地介绍了特征向量和其与矩阵的关系，然后再以其为基础解释协方差矩阵和主成分分析法的基本概念，最后我们结合协方差矩阵和主成分分析法实现数据降维。本文不仅仅是从理论上阐述各种重要概念，同时最后还一步步使用 Python 实现数据降...

2018-08-12 12:00:17 9158 2

原创网易笔试题——骰子游戏

网易试题小易参加了一个骰子游戏,这个游戏需要同时投掷n个骰子,每个骰子都是一个印有数字1~6的均匀正方体。小易同时投掷出这n个骰子,如果这n个骰子向上面的数字之和大于等于x,小易就会获得游戏奖励。小易想让你帮他算算他获得奖励的概率有多大。输入描述:输入包括两个正整数n和x(1 ≤ n < 25, 1 ≤ x < 150),分别表示骰子的个数和可以获得奖励的最小数字和。...

2018-08-10 16:33:30 1984

转载进程与线程的一个简单解释

PS：文中的例子浅显易懂，适合入门，但并不是很准确，文后节选一些比较专业的评论，这样理解更加全面一些。进程与线程的一个简单解释作者：阮一峰日期： 2013年4月24日进程（process）和线程（thread）是操作系统的基本概念，但是它们比较抽象，不容易掌握。最近，我读到一篇材料，发现有一个很好的类比，可以把它们解释地清晰易懂。1.计算机的核心是CPU，它承担了所...

2018-08-08 10:37:55 266

转载字符串匹配的KMP算法（通俗易理解）

转载http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html字符串匹配的KMP算法作者：阮一峰日期： 2013年5月 1日字符串匹配是计算机的基本任务之一。举例来说，有一个字符串"BBC ABCDAB ABCDABCDABDE"，我想知道，里面是否包含另一个...

2018-08-08 09:16:42 310

转载循环语句中的break和continue有何区别？

转发：https://www.cnblogs.com/reommmm/archive/2008/04/16/1156701.html循环语句中的break和continue有何区别？break表示跳出循环，continue表示结束本次循环示例程序如下： #include "stdio.h" void main() { int n,m; for(n=1;n<=...

2018-08-08 09:07:33 431

原创机器学习面试题之——LR问题集合

一、LR为什么是线性模型Logistic Regression从几率的概念构建线性回归模型。一个事件发生的几率（odds）为该事件发生的概率与不发生概率的比值，几率的取值范围为[0,+∞)，其对数的取值范围为实数域，所以，可以将对数几率作为因变量构建线性回归模型：由此可得，即P(y=1|x,w)=p，这便是Logistic Regression采用sigmoid函数的原因，sigmo...

2018-07-30 20:07:20 8216 3

转载机器学习面试题之——简要介绍超参数搜索

转发:https://blog.csdn.net/zhangbaoanhadoop/article/details/79559025本篇文章主要介绍在sklearn中采用GridSearchCV和RandomizedSearchCV进行超参数选择。一、超参数介绍： 1，超参数：在模型训练中，有些参数不能通过对数据进行学习得到，这种参数叫做超参数。比如，神经网络的层数，每层的神经元数量等。...

2018-07-29 16:29:28 1669

原创机器学习面试题之——BatchNorm

一、背景知识1、机器学习领域有个重要假设：IID独立同分布假设，就是假设训练数据和测试数据是满足相同分布的，这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。而BatchNorm就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布。2、Covariate Shift 指训练数据和测试数据存在分布的差异性。这会给网络的泛化性和训练速度带来了影响，我们经常使用的方法...

2018-07-28 16:06:09 2650

原创机器学习面试题之——简单介绍最小二乘

1、常用到的最小二乘场合：最小二乘法直线拟合，最小二乘法多项式（曲线）拟合，机器学习中线性回归的最小二乘法，系统辨识中的最小二乘辨识法，参数估计中的最小二乘法，等等。2、为什么用最小二乘：相比于绝对值的方法，平方和的方法可以得到更短的距离，使得拟合函数更接近于目标函数。从范数的角度考虑这个问题，绝对值对应的是1范数，最小二乘对应的就是2范数。3、和梯度下降法比较相同点：都是在已知数据的...

2018-07-26 11:35:38 2350

原创机器学习面试题之——简单总结常见排序算法

思想+时间复杂度+空间复杂度1、冒泡排序：依次比较和交换相邻的两个数从而把小的数排在前面时间复杂度：平均，最坏，最好（数据有序的情况下：设置一个标志位，若第一趟交换完成后，没有数据改变位置，则结束后面的交换）。空间复杂度：，稳定2、选择排序：可看成冒泡排序的优化算法，但只有在确定了是最小数的前提下才交换，所以和1比，大大减少了交换次数时间复杂度：平均，最坏，最好...

2018-07-25 16:45:19 593

原创机器学习面试题之——简单解释正则化为什么能减小模型复杂度

理论上，从VC维的角度可以解释，正则化能直接减少模型复杂度。（公式理论略）直观上，对L1正则化来说，求导后，多了一项η * λ * sgn(w)/n，在w更新的过程中：当w为正时，新的w减小，当w为负时，新的w增大，意味着新的w不断向0靠近，即减小了模型复杂度。（PS：也是为什么L1能得到稀疏解的一个参考答案）对L2正则化来说，一方面，w的更新过程为：若没有L2，则w前面的...

2018-07-25 15:09:08 2218

目录subword产生背景subword主流算法BPEwordpieceunigram language modelbert 的分词参考资料subword产生背景 word-level模型导致严重的OOV，而character-level模型粒度又太小过大的词典会带来两个问题：稀疏问题: 某些词汇出现的频率很低，得不到充分的训练计算量问题: 词典过大，也就意味着embedding过程的计算量会变大将词划分...

2021-07-10 16:54:13 792

原创踩坑记录一：lstrip/rstrip切割错误问题

前一段时间交接了某个同事的项目，其中有个bug记录一下。背景描述：若某个字符串的开头包含特定字符，则去除。ori_str = "黑牛牛舌"target = '黑牛'result = ori_str.lstrip(target)

2021-06-04 20:59:51 522

原创 pytorch tensor基本介绍及操作

张量在数学里时一种几何实体，包括：标量、向量和线性算子。标量（数）向量（一维数组）矩阵（二维数组）张量（高维数组） tensors类似于numpy的ndarray，在GPU上可以使用tensors来加速关于tensor维度的理解： https://www.cnblogs.com/logicalsky/p/9122437.html（写的很好，浅显易懂） tensors的常见类..

2021-06-04 20:28:42 351

原创 pyspark sql常用操作

from pyspark import SparkContext, SparkConffrom pyspark.sql import SparkSessionfrom pyspark.sql import Rowfrom pyspark.sql.types import *# 一、创建spark sql指挥官spark = SparkSession.builder.config(conf=SparkConf()).getOrCreate()# 二、读取/显示/保存# 读取不同类型的文件的.

2021-05-28 20:20:54 1568

转载 C++三种容器：list、vector和deque的区别

转自：https://blog.csdn.net/gogokongyin/article/details/51178378C++三种容器：list、vector和deque的区别在写C++程序的时候会发现STL是一个不错的东西，减少了代码量，使代码的复用率大大提高，减轻了程序猿的负担。还有一个就是容器，你会发现要是自己写一个链表、队列，或者是数组的时候，既要花时间还要...

2018-08-16 22:42:33 474

cuiy0818的博客