自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 资源 (1)
  • 收藏
  • 关注

原创 一步一步带你拆解PageRank算法

一般描述PageRank算法是谷歌创始人佩奇和布林的博士论文中提出的算法,然后他们利用这个算法成立了谷歌,一个当前(2019年7月)市值最高的公司之一。换句话讲,人类历史上最厉害的算法或许不知道是哪个,但是最有“钱途”的算法无疑就是PageRank了。PageRank算法提出来之前,人们在互联网上浏览网页,基本上只有三种途径,一种是朋友的推荐或者自己的收藏夹,或者雅虎这样的黄页,在某种意义上雅...

2019-07-22 21:57:49 4110 3

原创 Tricks of Python(python的一些小技巧)

Tricks of Python—— 论如何让纯python程序跑得更快,内存使用得更少编程的哲学Do One Thing and Do It Well做一件事,并把他做好。这原本是UNIX社区推崇的哲学,但是很显然可以延伸到软件开发领域甚至是日常生活中。在编程中,每个函数应该只处理一件事,如果一个函数做了两件事,那么应该把它拆分成两个函数。但是这里有一个问题,如何判断一个函数应不...

2019-06-15 19:45:41 3161

原创 三个水杯倒水问题

三个水杯倒水问题问题描述:有3个水杯,水杯的容量为a,b,c升,a,b,c为正数,水杯可以从水源处接满水或将水倒入水源,也可以将杯子中的水倒入其他杯中,请问可以量出多少种体积的水,并列出。(注:量出的水必须再某一个杯中)解答错误想法一开始,我想着用数学方法处理它,把倒水分为两种,一种是将满杯的水倒入另一杯中,如果另一个杯是空的,当前杯中的水相当于做减法,另一种是另一杯子是有水的,那么就相...

2019-12-02 09:55:13 11050

原创 利用分治算法来进行大数乘法

大数乘法function multiply(x, y)Input: n-bit positive integers x and yOutput: Their productif n == 1: return xylet x_L, x_R = ceil[n/2], floor[n/2] bits of xlet y_L, y_R = ceil[n/2], floor[n/2] bi...

2019-11-22 21:21:06 396

原创 不用反向传播的HSIC Bottleneck到底讲了啥,及其keras实现

机器之心上周介绍了一篇论文,说是不用BP也能训练神经网络,论文叫做《The HSIC Bottleneck: Deep Learning without Back-Propagation》,HSIC Bottleneck: Deep Learning without Back-Propagation](https://arxiv.org/pdf/1908.01580v1.pdf)》,引用了一个HS...

2019-08-29 20:48:24 2627 1

原创 RAdam的keras实现

简介Rectified Adam是最新提出的效果最优的adaptive stochastic优化器,超越了原始的Adam,稳定性也比warmup版本的Adam效果要好。原始论文地址:https://arxiv.org/abs/1908.03265本文主要记录RAdam的Keras实现。Keras实现继承自原始的Keras的Adam类.file: radam.py#coding=utf8...

2019-08-25 22:15:44 3622

原创 第一个rust程序

安装rust编程环境ubuntu下安装按照官网教程get-started,直接:curl https://sh.rustup.rs -sSf | sh但是因为某些原因,无法下载按照脚本安装反向代理感谢中科大的开源镜像站为我们提供了方向代理,我们可以按照镜像站的教程rust-static配置反响代理。export RUSTUP_DIST_SERVER=https://mirrors....

2019-08-12 20:07:59 2049

原创 二分法及其应用

二分法简介在一些电视节目中,我们经常看到主持人事先在一个范围例如[0,100]选择一个数字例如19,然后让参与者(观众或者嘉宾)猜测一个数字,支持说出大了还是小了,一直到猜中的那一位获得奖项。在这个问题中,我们有一个非常直觉的方法,就是每次都猜测最新的最大值和最小值之间的中间值,我们就可以使用期望(平均)最少的步骤达到最优值,用python语言可以写成:(bisect_guess_numbe...

2019-08-08 22:11:55 3454

原创 win10系统如何开启/安装ubuntu子系统

注: 此教程仅对windows 10家庭中文版做过测试第一步 开启linux子系统选项控制面板——>程序——>程序和功能——>启用或关闭Windows功能——>适用于Linux的Windows子系统——>确定 (然后重启)参考:在win10上安装linux子系统ubuntu第二步 安装linux子系统在应用商店中搜索Ubuntu,选择Ubuntu或者Ubu...

2019-08-07 21:45:53 1471

原创 使用sql语句在命令行下载mysql表格数据

通用格式mysql -h <host> -P<port>\ -u<username> \ -p<password> \ -e "sql_statement" \ > output_file_name举例说明mysql -h <host> -P&l...

2019-08-06 20:26:51 3116

原创 “Could not interpret optimizer identifier” error in Keras

“Could not interpret optimizer identifier” error in Keras原因是模型(model)和层(layers)使用tensorflow.python.keras(或者tensorflow.keras) API,优化器optimizer(SGD, Adam等)使用keras.optimizers,或者反之。这是两个不同的keras版本,放...

2019-06-18 11:38:20 31055 29

原创 python列表推导式中使用if语句及他们的等价形式

python列表推导式中使用if语句及他们的等价形式在python的列表推导式中使用if语句有两种形式:# 方式1: 起过滤作用 [expr(x) for x in li if cond(x)] # 方式1 等价于filter函数 list(map(expr, filter(cond, li))) # 方式2: 作为三元表达式使用,满足条件将其作expr1处...

2019-06-11 15:43:55 5960

原创 不同约束下熵最大的分布

在已知不同阶中心矩(统计量,如均值、方差、区间)的情况下,利用最大熵原理可以得到什么分布呢?对于连续分布:已知区间:均匀分布;已知均值:指数分布;已知均值和方差:正态分布;推导过程可以参考https://blog.csdn.net/u010592244/article/details/89684231...

2019-06-10 18:37:31 4771

原创 python标准库之glob模块

python标准库之glob模块在Linux下我们可以使用ls命令列出满足通配条件的文件,但是在python中os.listdir(dirname)中无法使用通配符,当然我们使用re模块配合os.lisrdir,os.path使用也可以达到目的,但是这个方法不够native。好在这是一个非常使用的功能,python标准库中就提供glob模块达到此效果,下面我们就来讲讲怎么使用python下...

2019-06-06 17:30:08 3185

原创 使用shell命令行(scp)在不同机器(Linux)上传递文件(上传、下载)

从本机上传文件/目录到另一个机器(或者远程主机)scp -r /path/to/file username@remote_host:/path/to/upload 从另一台机器(或者远程主机)下载文件scp username@remote_host:/path/to/download /path/to/save 前提是你要将本地的shh公钥加入到另一台机器(或者远程主机上)...

2019-06-06 10:40:14 4100

原创 curl --request POST

curl --request POST \ --url http://host_ip:port/uri/to/last \ --form 'key1=val1&key2=val2&key3=val3'使用命令行测试http post请求

2019-06-05 11:16:21 8994

原创 linux下根据命令名杀死某进程的shell命令

ps -aux | grep 'process_command_keyword' | awk '{{print $2}}' | xargs kill -9将process_command_keyword替换成需要杀死的启动进程的命令名即可。例如你使用python启动了一个python脚本,python test_process.py args, 使用ps -aux | grep 'py...

2019-06-04 16:45:37 4567

原创 NLP(自然语言处理)中处理未登陆词的一些方式

未登陆词的集中处理方式character-basedword-pieceWord: Jet makers feud over seat width with big orders at stakewordpieces解码方式1: _J et _makers _fe ud _over _seat _width _with _big _orders _at _stakewordpiec...

2019-06-04 11:29:56 4779

原创 NLP中扩增数据的办法(增加噪音的办法)

1. 随机删除一些token(字,词,word-piece等); (0.1)2. 随机将一些token替换成未登录标记(`<UNK>`)(0.1)3. 随机使用词表中的token替代掉其他的token;(0.1)4. 随机交换token的顺序;(no further than three positions apart)5. 随机截断序列(sequence),分为从前截断和从...

2019-05-15 16:27:43 4583

原创 DataLossError (see above for traceback): corrupted record at XXXXXX

tensorflow.python.framework.errors_impl.DataLossError: corrupted record at XXXXDataLossError (see above for traceback): corrupted record at XXXXXXX错误的可能原因: tf record文件损坏,可以重新下载或者生成record文件; ...

2019-05-14 09:47:20 5433 1

原创 混合高斯模型(GMM)与EM算法

混合高斯模型(GMM)与EM算法Question有一个数据集D={x1,x2,...,xN}D=\{x_1, x_2, ..., x_N\}D={x1​,x2​,...,xN​}中的每个数据点是这样产生的,先从K个类别中选择一个类别,然后从该类别对应的数据产生分布中产生数据点。若K选1的对应的分布是Multinoulli分布,每个类别对应的数据产生分布是不同的高斯分布,估计数据点x对应的分布。...

2019-04-30 23:07:23 3198

原创 如何推导出Gamma分布

Gamma分布Problem随机事件T在单位时间内发生的平均频数是λ,求事件T发生第α次所需要的时间所服从的分布。求解首先将问题离散化,设单位时间为1,将单位时间拆分成N等份,当N足够大时可以假定在每个时间间隔上事件T只有发生和没有发生2种可能,其中发生的概率为,于是乎,第α次发生所经历的时间间隔总数N的服从概率为:对F求微分,即可得到时间x的概率分布很明显,伽马分布可以看作是指数分布的推...

2019-04-29 22:37:43 8870

原创 最小二乘回归与正态分布

最小二乘回归与正态分布Question假设数据集D={⋯(xi,yi),⋯&ThinSpace;}D=\{\cdots (x_i, y_i), \cdots\}D={⋯(xi​,yi​),⋯}是由模型y=fθ(x)y = f_\theta(x)y=fθ​(x)产生,但是因为观测引入了误差ε,不妨设误差服从均值为0的正态分布即$y = f_\theta(x)+ \epsilon , 误差...

2019-04-29 22:36:25 6199

原创 最大熵与正态分布

最大熵与正态分布Question已知随机分布的均值和方差,求使得熵最大的概率分布。求解首先将问题翻译成数学语言:其中p(x)为概率分布密度函数,信息熵表示变量的确定性程度,熵越大确定性程度越低,也即表示未知越多。在信息论中,最大熵原理是一个非常重要的原则,也是奥卡姆剃刀原则在信息论中的应用,用一句通俗的话讲,就是如果你不知道事件的真相,那么你只能按照已知的信息去推测所有的可能和可能性,...

2019-04-29 22:30:44 13105 9

原创 正态分布与l2正则、岭回归

正态分布与l2正则、岭回归Question假设模型的参数为w,参数的先验分布是均值为0的正态分布,模型的数据集为D={x1, x2, …,xN}, 求参数的最大后验估计。解利用贝叶斯定理,不妨设w是单个标量,对于固定的σ,上面求最小化的函数中第一项是常量,第二项是l2正则,第三项是损失函数的和。很明显,我们可以很容易把这个结果推广到多维参数中。如果我们假定模型的各个参数的先验是相互独...

2019-04-29 22:27:40 3574

原创 全切分分词

全切分分词如果在分词的时候本着"宁可错杀三千,不可放过一个"的原则,将句子中所有在词典中出现的词汇都找出来,这样的分词算法就叫做全切分词。全切分词是很多种分词算法的前处理环节,利用全切分词生成有限无环图DAG,然后利用不同的算法求出一条或多条不同的路径,是很多分词算法的一部分。算法1. 根据字典建立state dict/pdictInput: 字典dict={w

2018-04-02 21:19:42 2796

原创 有限状态机

有限自动机,最大正向匹配分词

2018-03-31 07:10:15 2280

原创 汉语分词初探

基于词典的分词顾名思义,基于词典的分词就是要有一个词典,分词的过程就是用词典中的词和句子中的词进行比对,然后选出一个最优的切分结果。显而易见,基于词典的分词必须要维护一个好的词典,且其无法处理未登录词。最长匹配分词最长匹配分词指的是使用贪婪算法,从前往后匹配,匹配到最长的字串作为一个词,这种方法一般称为最大正向匹配。如果是从后往前匹配,也叫做最大反向匹配。由于汉语组词的多样性,使用最大匹配算法的错...

2018-03-30 07:42:24 1078

原创 RNN(LSTM)网络可以使用那些正则化方法

r2-regularizationinput dropoutmask dropoutweight dropoutactivation regularization(AR)temporal activation regularization(TAR)adversarial dropout, fraternal dropout

2017-12-13 10:28:02 5322

原创 tensorflow函数一览

tensorflow函数一览注意: 本文介绍的是version 1.3.0下的函数,有些函数可能在旧版本中没有。转载请注明出处变天式的博客前言:名词解释 tensor 张量,可以是一个数,也可以是一个向量、矩阵或者高纬度数据 operator 操作,在tensorflow里面,函数也叫作操作 Uni 一元,表示操作只有一

2017-12-12 13:35:32 4174

原创 Linux解压、打包、压缩、解包命令

tar命令tar -c|x|t|r|u[z|j|Z|v|O|C+]f archive_name aim_filename|dir_nameNote-compress 压缩,精简 -extract 提取 -trace 列出文件 查探 追踪 list all filename in archive_name -r 向压缩归档文件末尾追加文件 -update 更新原压缩包中的

2014-08-01 16:21:21 273

原创 SQL简明笔记上

SQL简明笔记上1. SELECT语句查询 SELECT statementSELECT column_combination --1 FROM table_combination --2 WHERE conditional_expression--3 ORDER BY column_ordermode_combination--4 GROUP BY c

2014-07-25 14:28:48 246

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除