beixiahuaideren-CSDN博客

原创 n-gram重探 Q&A

虽然之前一直用这个最基本的模型，但今天发现自己对这个模型确实不够熟悉，因此，对此参考了不少文献，以问答的形式进行了整理。

2016-05-25 22:22:43 1209

原创 PySpark预计算ClickHouse Bitmap实践

ClickHouse的bitmap是数据人员的一大利器，可以用于快速做人群分析。但是常见的bitmap使用方法加大ClickHouse集群计算和存储负载。本文结合PySpark，通过预计算ClickHouse bitmap二进制序列的方式，分摊ClickHouse的压力。

2024-04-16 17:50:01 1647 1

原创关于Spark on Yarn的一些经历

1、ERROR spark.SparkContext: Error initializing SparkContext org.apache.spark.SparkException: Yarn application has already ended! It might have been killed or unable to launch application master....

2018-10-08 01:38:32 719

原创记一次失败的tensorflow之旅（将feed_dict改为queue异步）

起因：众所周知，tensorflow有个慢的原因就是：Feed_dict does a single-threaded memcpy of contents from Python runtime into TensorFlow runtime. If data is needed on GPU, then you'll have an additional CPU->GPU transfe...

2018-02-10 14:45:29 2052

原创 tensorflow GPU版和CPU版在lookup_table函数上预期行为不一致

当lookup_table的索引超过了矩阵的长度，cpu版会报一下错误：InvalidArgumentError: indices[n,m] = x is not in [0, y)其中x比y大。在gpu版中，会自动帮你跳过这个数，自动补全为0；cpu版不会，会报这个上面错误。原因：gather_functor_gpu.cu.h具体见下面的讨论：the embedding_lookup() ret...

2018-02-09 02:38:55 1717 1

原创 python输出到文件里

傻乎乎写了各种print，挂到服务器上，用screen切窗口，一下子就给刷没了，所以想着重定向到文件里。遇到几个“坑”，这里当做给自己记录：1、我想要既能重定向到文件里，又能输出到屏幕上。使用了tee工具，但是没法反应。原因是：Python 中如何一个 print 语句同时输出到屏幕且记录到文件里python xxx.py有缓冲，要满 4k 才写入文件，加上python -u xx

2018-02-07 16:19:25 4665

原创 Memory Networks原理及其代码解析

原理：文章来源：Memory Networks 、 Answering Reading Comprehension Using Memory Networks 对于很多神经网络模型，缺乏了一个长时记忆的组件方便读取和写入。作为RNN，lstm和其变种gru使用了一定的记忆机制。在Memory Networks的作者看来，这些记忆都太小了，因为把状态（state，也就是cell的输出）及其权重全部都

2016-11-28 20:38:57 14970 3

原创 LSTM源码分析

代码来源：LSTM Networks for Sentiment Analysis ps：markdown真难用啊

2016-11-25 01:09:56 13535 1

原创 LSTM公式推导过程

原理见：理解 LSTM 网络推导见：LSTM的公式推导详解（万分感谢这篇文章。这里基本抄自这篇博文。）

2016-11-24 21:53:41 2385

原创使用theano时，“Runtime Error: Failed to import pydot”错误

使用theano时，“Runtime Error: Failed to import pydot”错误

2016-10-22 14:56:38 2180

原创 mathtype在word里高度不一致的解决办法

解决办法如下

2016-09-21 13:34:12 11194

原创 Weka和Mulan的介绍和理解

详细介绍Weka和Mulan

2016-07-23 16:49:51 3203

原创几个关于jsp的问题

几个关于jsp的问题

2016-07-22 16:46:58 843

转载如何生成一个arff文件

arff文件可以用于Weka和Mulan。原网站：http://weka.wikispaces.com/Creating+an+ARFF+file代码：/* * This program is free software; you can redistribute it and/or modify * it under the terms of the GNU

2016-07-17 17:04:03 4925

原创文本挖掘的基本流程

一、获取文本。二、对文本进行预处理。三、文本流的语言学处理。四、文本流的数学处理。五、特征提取和特征选择。六、利用算法进行挖掘

2016-07-13 11:50:06 22881

原创中国餐馆过程（Chinese Restaurant Process）

中国餐馆过程（Chinese Restaurant Process）及其变种

2016-05-14 22:02:59 13602 1

翻译利用Gensim训练关于英文维基百科的Word2Vec模型（Training Word2Vec Model on English Wikipedia by Gensim）

Training Word2Vec Model on English Wikipedia by Gensim在学习了word2vec和glove，一个很自然的方式是考虑去训练一个大型的语料库，对于这个任务，英文维基百科是一个理想的选择。在google了相关关键词比如“word2vec wikipedia”，“gensim word2vec wikipedia”，我在gensim谷歌组里看到

2016-05-08 22:36:34 8885 3

翻译从频率到意义：语义向量空间模型（4）（From Frequency to Meaning: Vector Space Models of Semantics）

作者：Peter D. Turney、Patrick Pantel翻译：华南师范大学-吴玺煜

2016-05-07 22:44:00 3218

原创 OpenNLP小记（利用OpenNLP寻找人名）

利用OpenNLP进行人名命名实体识别，代码来源于《驾驭文本》第五章。import java.io.File;import java.io.FileInputStream;import opennlp.tools.namefind.NameFinderME;import opennlp.tools.namefind.TokenNameFinderModel;import opennl

2016-04-28 16:55:06 2857

原创 atom折腾小记

安装了以下插件：minimapatom-ctagssymbols-tree-view可以用了

2016-04-24 16:19:15 828

翻译从频率到意义：语义向量空间模型（3）（From Frequency to Meaning: Vector Space Models of Semantics）

作者：Peter D. Turney、Patrick Pantel翻译：华南师范大学-吴玺煜

2016-04-19 15:50:23 1919 2

翻译从频率到意义：语义向量空间模型（2）（From Frequency to Meaning: Vector Space Models of Semantics）

作者：Peter D. Turney、Patrick Pantel翻译：华南师范大学-吴玺煜

2016-04-17 19:08:05 1560

原创记一次折腾之旅（兼 Classias 安装教程）

最近看一篇ACL论文，作者源代码里面用到了一个停止维护多年的库，叫做Classias。这个库有一个特点，就是安装都能失败。以下是安装教程，如果你按照官方教程安装，那么，恭喜你，只会一直装不上，装上了也用不了。

2016-04-16 21:46:34 1066

翻译从频率到意义：语义向量空间模型（1）（From Frequency to Meaning: Vector Space Models of Semantics）

作者：Peter D. Turney、Patrick Pantel翻译：华南师范大学-吴玺煜

2016-04-15 21:45:06 4170

原创 TransE算法（Translating Embedding）

介绍TransE算法（Translating Embedding）

2016-03-27 14:42:17 61381 37

原创 xinu在vbox上，使用debian8，并在上面进行xinu编程

xinu在vbox上，使用debian8，并在上面进行xinu编程

2016-03-05 19:55:55 1985

原创在ubuntu上安装编译MIPS指令的包Sourcery CodeBench Lite for MIPS（交叉编译环境）

在ubuntu上安装编译MIPS指令的包Sourcery CodeBench Lite for MIPSMIPS交叉编译环境。Sourcery CodeBench出了一个gcc工具链用于编译为MIPS汇编。

2016-02-29 18:59:44 2768

原创 sudo：无法解析主机

原因：替换了hosts文件（之前用了google hosts）解决方法：由于没法sudo，网上教程都没法使用，比如http://www.th7.cn/system/lin/201506/106442.shtml这种，都没法sudo了，还怎么sudo修改？死循环。使用以下指令$ pkexec nano /etc/hosts加入 127.0.1.1 xxxxxxxx是你的

2016-02-28 13:44:57 12085 1

原创在VMWare安装Xinu

Xinu是一种教学用的操作系统，运行在路由器上。有本书就是以此为教学对象《操作系统设计-Xinu方法》其实，相当于把官方教程弄成中文而已。

2016-02-27 18:28:34 4304 3

转载对象已死？

原文：http://www.infoq.com/cn/articles/object-have-dead/作者徐昊最近常有一种说法，就是我们如今面临着另外一场编程模型的变革，面向对象技术已经处在被淘汰的边缘，函数式语言会取代面向对象技术成为主流方式，甚至出现了面向对象已死的言论。作为一个硬核函数语言的狂热者，我个人当然希望函数式语言可以一统天下，成为主流之选。但是不是应该把对象

2016-02-27 14:32:33 698

原创 windows7 下 Bochs 运行 helloworld

http://blog.csdn.net/pandora_madara/article/details/50188175http://blog.luoyuanhang.com/2015/08/04/【从头开始写操作系统系列】环境搭建以及第一个Hello World/感谢以上文章安装nasm、bochs、dd，加入环境变量，使cmd可以识别。剩下与http://b

2016-02-17 14:26:27 1350

原创 windows7 下 Bochs2.6.x 运行 Linux 0.11版本

windows7 下 Bochs2.6.x 运行 Linux 0.11版本的过程

2016-02-17 14:04:37 2277

原创记一次手贱之旅--Ubuntu安装NVIDIA驱动

Ubuntu版本15.10。1、我和这位博主一样，一样的步奏，安装NVIDIA驱动。http://www.cnblogs.com/zhcncn/p/3989572.html Ubuntu 14.04 安装nVidia驱动后不能进入图形界面的恢复过程结果，发生意外了，一样的情况，就是在登录界面，输入密码后，不断循环，进不去桌面。理论上这位博主的做法应该没问题，但，失败了。

2016-02-16 00:00:33 693

转载 Tomcat的四种web应用部署方式详解

原文http://blog.csdn.net/titilover/article/details/6822258在Tomcat中有四种部署Web应用的方式，简要的概括分别是：（1）利用Tomcat自动部署（2）利用控制台进行部署（3）增加自定义的Web部署文件(%Tomcat_Home%\conf\Catalina\localhost\AppName

2015-05-19 15:46:01 4136

原创手把手用eclipse和tomcat开始一个helloworld项目

参考自国外一篇文章：http://www.srccodes.com/p/article/3/Tomcat-Hello-World-Servlet-using-Eclipse-IDE首先，然后输入你的项目（project）名finish结束。。。然后，点击菜单栏File继续。。。

2015-05-19 14:17:48 3379

转载 eclipse修改web项目部署路径

原文：http://blog.csdn.net/yuan16423276/article/details/37502705Eclipse中用Tomcat发布的Web项目，更改其部署路径我的Eclipse的工作目录是D:/workspace先配置Tomcat选择你的tomcat版本点击next这里先不要把项目添加进去我们先对tom

2015-05-19 14:02:44 613

转载指针与数组

点击打开链接-37楼1。数组名是一个常量吗？是。-----------------------------不能说是。提示：数组名是一个不变的符号地址，但在C中，不变的量就是常量吗？？愿闻其详。---------------------------------------------------在C中，常量表达式必须是编译期的，运行期的不是常量表达式。因此一个自动

2015-05-02 21:46:09 583

原创 windows下pip、anaconda的多版本管理

一直在网上寻觅，无果。只能自己研究。http://jingyan.baidu.com/article/b87fe19e94ca95521935686e.html主要参照这个。这个经验主要是python版本管理。pip在pip6.1.1之后，会在你的所有path里，寻找最新的pip*-script.py。也就是每次安装后，我们都要在最新的pip文件夹里修改它。（当然一逸用劳的

2015-05-02 16:08:36 3760

原创有关python的经历

1、不能命名为“abc.py”，不然会无法启动，因为有个文件就是abc.py会产生这样的错误：Fatal Python error: Py_Initialize: can't initialize sys standard streams见http://stackoverflow.com/questions/26569828/pycharm-py-initialize-cant-initi

2015-04-19 14:46:25 4235 1