自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 资源 (1)
  • 收藏
  • 关注

原创 Perplexity困惑度解释

引用wiki上的话“A model of an unknown probability distributionp, may be proposed based on a training sample that was drawn fromp. Given a proposed probability modelq, one may evaluateqby asking how well it predicts a separate test samplex1,x2, ...,xNa...

2020-06-01 11:13:17 926

原创 vim 复制到外部 自定义命令

分享一个自定义命令,实现vim中内容的选中复制到外部。在 ~/.vimrc 文件中加入下面两行,保存后退出command CP :set mouse=v | :set nonucommand RE :set mouse=a | :set nuvim 打开文件后,翻到需要复制的位置,按shift+冒号启动命令行,输入CP,(即关闭鼠标模式,并取消行号),即可进行复制。当复制完成后...

2019-08-18 16:52:44 805

原创 UCB Spikes 理解 和 UCB 缺点

UCB – The Upper Confidence BoundAlgorithm,上置信算法。下图红圈部分就是 UCB Spikes。下面就来解释如何形成UCB Spikes(尖峰)。由于UCB算法的优化目标是提高每个动作的置信度,这个置信度可以理解为每个动作的平均收益和该动作的探索程度的加权和,而探索程度是一个关于该动作被选中次数的函数,选中越多,则探索程度越小。在最开始时,所有的...

2019-01-24 20:01:27 1890 1

原创 为什么E-GREEDY算法中e越小,性能会更好

为什么E-GREEDY算法中e越小,性能会更好How to understand the following sentences 第一句,讲的是e-贪心方法最终的性能更好的原因在于它持续地探索使得找到最优动作的概率提高了(纯粹的贪心只有1/3的概率找到最优动作)。第二句,当e=0.1时,该方法探索的概率更高,因而能更早地找到最优动作,但它选取该动作的概率不超过91%(因为有10%概率是...

2019-01-21 13:02:42 7621 1

原创 Pycharm无法启动本地jupyter notebook(403 post /api/kernels 《127.0.0.1》: '_xsrf' arument missing from post )

前提,在本地已经有了一个可以在cmd中启动运行的jupyter notebook,且你想用这个本地的jupyter notebook也能在pycharm上运行。(如果你有一台开着远程jupyter notebook的服务器,只要填对token就行了,后面都不需要看)(如果发现启动jupyter notebook 时没有在终端中显示token,可以看一下在.jupyter文件夹下(和jupyter_...

2019-01-07 22:43:28 6408 2

转载 解决使用git,ssh每次都要输入密码

使用git,去提交或者下载代码都是很方便的,但是最近新配置了一套系统,发现每次git pull或者其他动作都需要输入密码。想一想不对劲啊,我使用的是ssh的方式clone的代码,而且在clone之前还生成并且上传了公钥,还把公钥填入git的公钥库里面了,怎么还要我输入密码??仔细研究后,发现了问题所在,原来是在生产公钥的时候,执行命令 ssh-keygen -t rsa -C xx...

2018-11-13 16:56:31 9746 1

原创 CLion 汉化问题 中文显示为方框

网上很多CLion汉化教程都有一定的问题,因为没有在汉化前执行以下两个步骤。第一步:进入英文版Clion,到 File → Settings → Appearance & Behavior → Appearance →勾选 Override default fonts by (not recommended): 选择 Microsoft YaHei 或者其他中文字体。第二步:“l...

2018-10-31 19:53:31 7716

原创 python selenium 右键另存为 爬坑指南 (包含windows和linux)

本文所有实现都基于selenium + 火狐浏览器,及geckodriver驱动 ,驱动下载地址https://github.com/mozilla/geckodriver/releases,找到对应系统的版本,注意驱动还需要和浏览器的版本配对,一般更新浏览器到最新,然后用最新的驱动。不然会报如下的错:selenium.common.exceptions.WebDriverException:...

2018-10-20 23:17:26 7948 4

转载 spark graphx 实现二跳邻居统计——使用pregel

本文是对二跳邻居统计的实战,因为用到了pregel,需要对pregel模型有一些大致的了解,例如各个参数的意义,各个函数的作用,以及大致的流程。最核心的应该就是消息发送函数这个部分,注释中有对两轮迭代的过程有解释。def main(args: Array[String]): Unit = { case class Person(id: String, tel: String, relate...

2018-07-14 21:40:17 2703

原创 LightGBM 直方图优化算法

给出下面这个广泛使用 直方图优化算法的ppt,本文是对该张ppt的解释。直方图优化算法需要在训练前预先把特征值转化为bin,也就是对每个特征的取值做个分段函数,将所有样本在该特征上的取值划分到某一段(bin)中。最终把特征取值从连续值转化成了离散值。下面是训练过程中利用直方图寻找最佳分割点的算法。(不需要像预排序一样,把特征的所有取值进行排序)     首先,对于当前模型的每个叶子节点,需要遍历所...

2018-06-27 21:31:36 13119 12

翻译 Download failed : Oracle JDK 8 is NOT installed

在安装flash插件时碰到的,应该是被oracle公司墙了。下面是在stack overflow看到的方法,可行,简单翻译一下:首先更新apt-get仓库$ sudo apt-get update添加java8的仓库以便于apt-get$ sudo add-apt-repository ppa:webupd8team/java再一次更新apt-get仓库$ sudo apt-get updat...

2018-06-21 11:31:33 2252

原创 查看spark RDD 各分区内容

mapPartitionsWithIndexdef mapPartitionsWithIndex[U](f: (Int, Iterator[T]) => Iterator[U], preservesPartitioning: Boolean = false)(implicit arg0: ClassTag[U]): RDD[U]函数作用同mapPartitions,不过提供了两个参数,第一个...

2018-05-18 20:43:30 5490 2

原创 LR 如何使数据点对分类的影响权重不同

最近看到不少讨论Linear SVM和LR的区别的内容,很多都提到两者的损失函数的目的都是增加对分类影响较大的数据点的权重,减少与分类关系较小的数据点的权重。下面就是对于这句话的个人理解。先说SVM,比较好理解,在用拉格朗日乘子法得到其“对偶问题”后,因为需要满足KKT条件,对任意训练样本(xi,yi),总有拉格朗日乘子 = 0或yif(xi) = 1。若拉格朗日乘子大于0,则必有

2018-04-30 18:44:14 1513

原创 JAVA 线索二叉树转换为双向有序链表

/** * Created by Administrator on 2018/3/7. * 线索二叉树转换为双向有序链表 * 考虑到中序遍历线索二叉树的结果为有序序列 */public class TreeToList { public void Convert(TreeNode root){ if(root==null) return;

2018-03-07 22:57:16 333 1

原创 JAVA 按之字形顺序打印二叉树

分别用两个栈存放树的奇数行和偶数行,奇数行自左向右压入孩子,偶数行自右向左压入孩子。import java.util.LinkedList;import java.util.Stack;/** * Created by Administrator on 2018/3/7. */public class zhiPrint { public void print(TreeNod

2018-03-07 11:38:49 791

原创 JAVA 用循环的方法实现二叉树的镜像

分别用递归和循环实现二叉树的镜像import java.util.LinkedList;/** * Created by Administrator on 2018/3/6. */public class MirrorBinaryTree { //递归 public void MirrorCursively(TreeNode root){ if(roo

2018-03-06 17:25:28 460

原创 在Linux下使用“360随身WiFi 2” ubuntu14.04 64位系统适用

由于试过了网上的几个驱动,但都有些问题,虽然能识别出设备并连接wifi成功,但一联网打开浏览器就会死机,然后网上找到了https://askubuntu.com/questions/473951/kernel-panic-with-cheap-wi-fi-usb-adapter,这篇文章指出是kernel panic导致的死机,简单来说就是内核与驱动不兼容,参照文章中的解决方法,首先需要将linu

2018-01-21 17:49:10 6350

原创 pandas 取出dataframe中重复的数据(关于某字段),即去掉不重复的数据

和dataframe去重不同,当需要的是那些重复数据而不是非重复数据是,就想要将重复数据提取出来时,或者去除那些非重复数据。主要思路:1. 采用drop_duplicates对数据去两次重,一次将重复数据全部去除(keep=False),另一次将重复数据保留一个(keep='first); 2. 上一步我们得到了两类去重数据,分别是含有原本重复的数据(a)和不含有原本重复的数据(b),

2018-01-05 20:15:59 44205 3

原创 散列表太满,对散列表再散列

散列表用链表数组实现。每个列表被称为桶。将元素放入散列表中,首先要计算该元素的散列码(hashcode),然后与桶的数目取余,所得到的结果就是保存这个元素的索引,具有相同索引(散列值)的元素放入一个桶内,串联成一个链表。       当散列表太满,或者说如果装填因子为0.75(默认值),而表中超过75%的位置已经填入元素,就需要对散列表再散列,这个表就会用双倍的桶数自动地进行再散列。桶数是指用

2017-12-29 11:01:26 963

原创 Python Dataframe ——指定多列去重、求差集

1)去重指定多列去重,这是在dataframe没有独一无二的字段作为PK(主键)时,需要指定多个字段一起作为该行的PK,在这种情况下对整体数据进行去重。Attention:主要用到了drop_duplicates方法,并设置参数subset为多个字段名构成的数组。具体代码如下: >>>import pandas as pd >>>data={'state':[1,1,

2017-12-13 22:14:04 40497 5

原创 Pandas DataFrame——按行构建

当我们从复杂表格提取出逐个样本的特征时,继而构成一条样本并组成训练或测试集时,比较容易想到的一点就是一行一行地构建DataFrame。而pandas.Dataframe()容许的输入有numpy ndarray (structured or homogeneous), dict, or DataFrame这些;其中,我采用了从字典构建,最主要原因就是可以省去给每列填写列明的步骤,Dataf

2017-12-12 11:25:15 3455

原创 HBase java——Scan中获取列限定符、行键、单元值

Scan整个表,遍历各行数据,如何得到每行数据的列限定符、行键和单元值?hbase中表followlist2 内容(hbase shell)import java.io.IOException;import java.util.Iterator;import java.util.List;import org.apache.hadoop.conf.Configurat

2017-08-30 22:17:05 10495

“360随身WiFi2” linux驱动 MT7601U linux内核版本3.13.0

在Ubuntu 14.04 64位系统,linux内核3.13.0-32-generic(3.13的应该都可以),已经修改过common/rtusb_dev_id.c文件,可以直接使用。

2018-01-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除