笔记
文章平均质量分 82
手撕机
娱乐博主。
展开
-
2015 CMU computer master's entrance test
There are 4 tasks: Task 1: Task 2: Task 3: Task 4:原创 2015-05-16 22:18:05 · 702 阅读 · 0 评论 -
解决UnsatisfiedLinkError: Unable to load library:Native library not found in resource path
public class Test{ public interface CLibrary extends Library { CLibrary instance =(CLibrary)Native.loadLibrary(LIB_DIR,CLibrary.class) public static String test(); }原创 2015-04-09 11:11:17 · 21080 阅读 · 0 评论 -
交叉熵损失(Cross Entropy Loss)计算过程
在机器学习中(特别是分类模型),模型训练时,通常都是使用交叉熵(Cross-Entropy)作为损失进行最小化:CE(p,q)=−∑i=1Cpilog(qi)CE(p,q)=−∑i=1Cpilog(qi)其中CC代表类别数。pipi为真实,qiqi为预测。我们以MNIST多分类为例,通常Label会编码为One-Hot,最后一层输出会使用Softmax函数进行概率化输出,如下表所示:...原创 2018-02-04 02:12:51 · 66153 阅读 · 7 评论 -
机器翻译评价指标之BLEU详细计算过程
1. 简介BLEU(Bilingual Evaluation Understudy),相信大家对这个评价指标的概念已经很熟悉,随便百度谷歌就有相关介绍。原论文为BLEU: a Method for Automatic Evaluation of Machine Translation,IBM出品。本文通过一个例子详细介绍BLEU是如何计算以及NLTKnltk.align.bleu_scor原创 2017-02-24 23:35:47 · 52976 阅读 · 20 评论 -
ROC曲线计算过程例子
三个类别: Sample True Predict 1 [0 0 1] [0.1 0.2 0.7] 2 [0 1 0] [0.1 0.6 0.3] 3 [1 0 0] [0.5 0.2 0.3] 4 [0 0 1] [0.1 0.1 0.8] 5 [1 0 0] [0.4 0.2 0.4] ...原创 2018-03-07 01:08:23 · 6918 阅读 · 0 评论 -
选择偏好(Selectional Preference)概念解释及其相关研究
在自然语言处理中,“选择偏好”这个概念非常容易理解。比如下面的例子:a)我吃了一个苹果。 b)电脑吃了一串钥匙。很明显a句子是非常合理的,但b句子就非主流了。对于“吃”这个谓语动词,它的主语通常是动植物,而宾语通常就是能被吃的东西了。所以说,在自然语言中,谓语(Predicate)对其论元(Argument)是有一定选择倾向性的,不是什么词语都可以通过简单排列组合进行搭配的。选择偏好...原创 2018-03-09 16:36:45 · 6109 阅读 · 0 评论 -
LDA主题模型之基础数学知识
二项分布和Beta分布二项分布随机变量XXX服从二项分布,写作X∼Bin(n,p)X∼Bin(n,p)X \sim Bin(n,p),它的概率质量函数为:P(X=k)=(nk)pk(1−p)n−kP(X=k)=(nk)pk(1−p)n−kP(X=k)=\binom{n}{k} p^k(1-p)^{n-k}例如有一位NBA球员,他的命中率是0.55,现在他投了6次,那么他命中2次...原创 2018-03-16 21:51:37 · 468 阅读 · 0 评论 -
马尔科夫链细致平衡条件
现象例子:有一个概率单纯形向量vv\mathbf{v}: v=[0.6,0.4]v=[0.6,0.4]\mathbf{v}=[0.6, 0.4]和一个概率转移矩阵PP\mathbf{P}: P=[0.70.80.30.2]P=[0.70.30.80.2]\mathbf{P}=\begin{bmatrix}0.7 & 0.3 \\ 0.8 & 0.2\end{bmatr...原创 2018-03-18 18:54:51 · 15002 阅读 · 11 评论 -
HITS算法详解
实例如下有三个网页A,B,C及其链接关系:构造邻接矩阵(Adjacent Matrix):A=⎡⎣⎢110100110⎤⎦⎥A=[111101000]A=\begin{bmatrix}1 & 1 & 1 \\ 1 & 0 & 1 \\ 0 & 0 & 0\end{bmatrix}每个节点都有一个Hub分数和Authority分数,所以有一个Hub向量hh\math...原创 2018-03-20 01:58:22 · 8251 阅读 · 3 评论 -
使用GIZA++进行词对齐
准备双语语料zh.txt:源语言海洋 是 一个 非常 复杂 的 事物 。人类 的 健康 也 是 一 件 非常 复杂 的 事情 。将 两者 统一 起来 看 起来 是 一 件 艰巨 的 任务 。 但 我 想 要 试图 去 说明 的 是 即使 是 如此 复杂 的 情况 , 也 存在 一些 我 认为 简单 的 话题 , 一些 如果 我们 能 理解 , 就 很 容易 向前 发展 的 话题 。...原创 2018-03-21 02:29:31 · 11751 阅读 · 16 评论 -
使用主成分分析(PCA)方法对数据进行降维
我们知道当数据维度太大时,进行分类任务时会花费大量时间,因此需要进行数据降维,其中一种非常流行的降维方法叫主成分分析。Exploratory Data Analysis鸢尾花数据集:import numpy as npfrom sklearn.datasets import load_irisiris = load_iris()type(iris.data) # ...原创 2018-03-25 17:54:22 · 21261 阅读 · 0 评论 -
主成分分析与奇异值分解的关系
假如我们的原始数据矩阵是XX\mathbf{X},维度是n∗mn∗mn * m。主成分分析: 首先计算XXX的协方差矩阵C=Cov(X)C=Cov(X)C=Cov(X),CCC的维度是m∗mm∗mm*m,然后对协方差矩阵进行特征分解: C=PΛP−1C=PΛP−1C=P\Lambda P^{-1} 这里Pm∗mPm∗mP_{m*m}由CCC的特征向量组成,对角矩阵Λm∗mΛm∗m\L...原创 2018-03-25 19:52:15 · 2267 阅读 · 0 评论 -
解码之Beam Search算法
解码是seq2seq模型的常见问题,常用方法有贪心搜索(Greedy Search)集束搜索(Beam Search)。简单贪心搜索 From [1]如图,Decoder根据Encoder的中间语义编码向量ccc和<s>标签得到第一个输出的概率分布[0.1,0.1,0.3,0.4,0.1][0.1,0.1,0.3,0.4,0.1][0.1, 0.1, 0.3, 0.4, ...原创 2018-04-14 11:49:24 · 16157 阅读 · 3 评论 -
[TensorFlow笔记] TensorBoard可视化
多元线性回归(数据是经典的Boston房价预测):# coding=utf-8import numpy as npimport tensorflow as tffrom sklearn.datasets import load_boston# NumPy dataX, y = load_boston(return_X_y=True)X = X.astype(np.float3...原创 2018-03-27 19:37:10 · 577 阅读 · 1 评论 -
相对熵(KL散度)计算过程
KL散度(Kullback-Leibler Divergence)也叫做相对熵,用于度量两个概率分布之间的差异程度。原创 2018-03-29 00:59:41 · 61983 阅读 · 15 评论 -
语义角色标注入门
语义角色标注(Semantic Role Labeling)的目标主要是识别出句子中Who did What to Whom, When and Where。英文数据集主要有CoNLL-2005和CoNLL-2012提供的标注数据集,其中CoNLL-2005的数据集来源于Penn Tree Bank,CoNLL-2012的数据集来源于OntoNotes v5.0。然而,PTB和OntoNote...原创 2018-04-26 23:50:45 · 1986 阅读 · 2 评论 -
使用Stanford CoreNLP的Python封装包处理中文(分词、词性标注、命名实体识别、句法树、依存句法分析)
Stanford CoreNLP的源代码是使用Java写的,提供了Server方式进行交互。stanfordcorenlp是一个对Stanford CoreNLP进行了封装的Python工具包,GitHub地址,使用非常方便。安装stanfordcorenlp包之前: 1:下载安装JDK 1.8及以上版本。 2:下载Stanford CoreNLP文件,解压。 3:处理中文还需要下载中文原创 2017-05-28 22:00:26 · 31828 阅读 · 47 评论 -
分别使用Eclipse EE和IntelliJ IDEA构建基于Maven的Java Web项目
Eclipse EE: http://jingyan.baidu.com/article/9f63fb91a7d2a5c8400f0e20.html IntelliJ IDEA 14: http://mark.leanote.com/post/使用IntelliJ-IDEA-14和Maven创建java-web项目原创 2015-07-22 23:09:17 · 560 阅读 · 0 评论 -
Java基本代码
文件读写基本读取文件:BufferedReader br = new BufferedReader(new FileReader(new File(filePath);String line=null;StringBuilder sb=new StringBuilder();while((line=br.readLine())!=null){ sb.append(line);}写入文原创 2015-11-22 17:13:32 · 412 阅读 · 0 评论 -
JavaFX学习路径
易百教程:通过一个实例,教会你从创建项目到部署全过程,初学者强烈推荐。 特别注意:用JavaFX Scene Builder更改界面后一定记得项目右键Refresh(Eclipse)官方教程1:官方教程2:Using JavaFX UI Controls:This tutorial covers built-in JavaFX UI controls available in the Jav原创 2015-11-20 10:51:59 · 1657 阅读 · 0 评论 -
Stanford CoreNLP 3.6.0 使用入门
Stanford CoreNLP由Java语言开发,是斯坦福大学自然语言处理小组的研究成果。 包含自然语言处理的基本任务:分词、词性标注、依存句法分析、命名实体识别等等,支持多语言。项目地址:GitHub本文主要记录使用注意事项。Stage 1首先我们要下载 CoreNLP Java包。 然后在Eclipse里面的Classpath里面引入jar文件。如下图红色框所示: CoreNLP只需原创 2020-10-01 17:03:06 · 15411 阅读 · 7 评论 -
Nginx入门
Nginx入门原创 2016-04-28 11:09:52 · 7925 阅读 · 1 评论 -
MongoDB入门
MongoDB入门原创 2017-02-20 20:52:46 · 299 阅读 · 0 评论 -
Tomcat 7在Ubuntu14.04下默认安装路径
Tomcat 7在Ubuntu14.04下默认安装路径原创 2015-05-16 22:06:13 · 1741 阅读 · 1 评论 -
MySQL备份入门
MySQL备份入门原创 2017-02-23 19:14:47 · 354 阅读 · 0 评论 -
Ubuntu 14.04 安装Apache、MySQL、PHP、JDK7、Tomcat7、vsFTPd、Open SSH Server快速步骤
Ubuntu 14.04 安装Apache、MySQL、PHP、JDK7、Tomcat7、vsFTPd、Open SSH Server快速步骤原创 2015-10-21 12:38:53 · 546 阅读 · 0 评论 -
Python之subprocess模块的使用
Python的subprocess模块使用介绍原创 2017-05-26 23:51:05 · 1098 阅读 · 0 评论 -
Java Collections简单概括
Java Collections 集合类List,Set,QueueArrayList、LinkedList、HashSet、LinkedHashSet、TreeSetHashMap、LinkedHashMap、TreeMap原创 2014-04-22 17:23:50 · 656 阅读 · 0 评论 -
Ubuntu /etc目录下profile、bash.bashrc和用户目录下.profile、.bashrc的作用和区别
相关概念: Login Shell:需要输入账号密码Shell,比如tty1-tty6终端、通过ssh登录的终端 Non-login Shell:不需要输入账号密码的Shell,比如图形模式下Ctrl+Alt+T得到的Terminal、Shell下的子进程区别: /etc/profile、/etc/bash.bashrc文件是针对所有用户来说的,每个用户登录时都会执行,其中/etc/pr...原创 2017-08-21 12:26:01 · 5422 阅读 · 0 评论 -
PyQt4入门
首先上个图,看看PyQt运行长什么样:图片来自: http://static.oschina.net/uploads/space/2013/0423/083239_08UQ_5189.jpgPyQt是一个Python GUI库。 PyQt4兼容Python 2.x和Python 3.x,PyQt5只能用于Python 3.x。 这里以PyQt4为例。一、安装PyQt4:Ubuntu:sudo原创 2016-01-25 22:02:02 · 2540 阅读 · 0 评论 -
NumPy中ndarray和matrix的四则运算
NumPy中最重要的类ndarray和matrix,理解它们的四则运算至关重要,然而它们跟数学中的矩阵运算还是有一定差别。原创 2017-12-14 17:05:09 · 8560 阅读 · 0 评论 -
TensorFlow教程——常用函数解析
以下函数均返回一个Tensor对象,类似矩阵数据,包括单个值,向量,多维矩阵。基本的两个创建常量Tensor的函数tf.constant(value, dtype=None, shape=None, name="Const", verify_shape=False)根据value和shape来创建一个常量Tensor。value可以是一个数,也可以是一个list。 如果是一个数,那么这个常量中所有值原创 2017-11-16 19:56:24 · 975 阅读 · 0 评论 -
Ubuntu 18.04 Anaconda使用
Anaconda官网下载学过Python的估计都知道virtualenv可以用来创建Python的虚拟环境,然而它的一个缺点是难以指定Python的确切版本,比如电脑只安装了Python 3.6,那我们就只能以Python 3.6为基础环境,然后安装任意版本的第三方包。Anaconda和virtualenv类似,也是用来创建Python的虚拟运行环境,但它的优点就是可以指定任意版本的Pyt...原创 2018-09-11 11:28:58 · 9000 阅读 · 2 评论