自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Arthur的随笔

The More I Learn, The Less I Know, Tracking Mind Only With Code

原创 一次欲哭无泪的debug

我现有个服务,其中有段功能是将地理位置信息的json转成protobuf,代码不难: import json import geobuf j = json.load(open('xx', 'r')) pb = geobuf.encode(j) 对于一...

2019-11-26 11:51:55 33 0

原创 使用Tushare统计收盘价中位数

使用Tushare统计收盘价中位数 获取交易数据 tushare只能获取一只股票的一段时间成交数据或某一天全部股票成交数据,我选择获取一只股票的历史数据然后存起来再计算 #coding:utf8 import tushare as ts tushare_token = 'xxxxxxx...

2019-04-29 12:31:51 233 0

原创 JVM ClassLoader笔记

非常详细的ClassLoader介绍:https://blog.csdn.net/briblue/article/details/54973413 在此下载jdk7源码:http://jdk7src.sourceforge.net/ 三个内建ClassLoader BootstrapClassLo...

2019-04-16 17:56:12 142 0

原创 从0开始学架构课后题

01. 你原来理解的架构是如何定义的?对比我今天讲的架构定义,你觉得差异在哪里? 02.为何结构化编程、面向对象编程、软件工程、架构设计最后都没有成为软件领域的银弹? 03. 请按照“架构设计的主要目的是为了解决软件复杂度带来的问题”这个指导思想来分析一下你目前的业务系统架构,看看是否和你当时...

2019-04-08 23:40:39 8564 2

原创 plda源码(十二)

plda源码(十一) LightLDA Gibbs Sampling p(zdi=k∣rest)∝(nkd−di+αk)(nkw−di+βw)nk−di+βp(z_{di}=k | rest) ∝ \frac{(n^{−di}_{kd}+\alpha_k)(n^{−di}_{kw}+\bet...

2019-02-01 15:56:48 224 0

原创 plda源码(十一)

class VoseAlias { public: unsigned short n; //Dimension double wsum; //Sum of proportions std::vector<std::pair&...

2019-01-30 10:42:11 183 0

原创 plda源码(十)

plda源码(十) Sparse LDA StandardGibbs采样公式如下 q(z)=nk,¬it+βnk,¬i+βV(nm,¬ik+αk)\begin{aligned} q(z) &= \frac{n^{t}_{k,\neg i} + \beta}{n_{k,\n...

2019-01-15 16:39:03 198 0

原创 plda源码(九)

plda源码(九) BaseSampler是把Sampler抽象一下,添加词相识度和为新采样方法提供接口 class BaseSampler { public: BaseSampler(double alpha, double beta, ...

2019-01-10 16:49:34 178 0

原创 plda源码(八)

plda源码(八) sampler.h 终于来到最关键的地方,lda不能直接算出word和document的topic分布,只能不停的随机对应的topic分布,然后选择接受与否,即Gibbs采样 // LDASampler trains LDA models and computes sta...

2019-01-09 17:53:32 173 0

原创 plda源码(七)

plda源码(七) FastMatrix vals和mapped_vec class FastMatrix { public: struct FElem { int col; double val; }; class ElemIter {//行迭代器 p...

2019-01-07 18:08:37 169 0

原创 plda源码(六)

plda源码(六) LDAModel 只增加了IncrementTopic和ReassignTopic函数 class LDAModel : public ModelBase<int32> void LDAModel::IncrementTopic(int word...

2019-01-07 15:21:55 184 0

原创 plda源码(五)

plda源码(五) model_base.h 存储所有word的topic分布 // The ModelBase class stores topic-word co-occurrence count vectors as // well as a vector of global top...

2019-01-07 12:52:54 189 0

原创 plda源码(四)

corpus.h typedef std::list<LDADocument*> LDACorpus; // Stores multiple documents and manages the memory pool of // the topic...

2018-12-19 00:10:01 187 0

原创 plda源码(三)

document.h class DocumentWordTopicsPB; // Stores a document as a bag of words and provides methods for interacting // with Gibbs LDA models. cl...

2018-12-18 16:59:37 174 0

原创 plda源码(二)

vocabulary.cc 存储单词到id的映射 class Vocabulary { public: int GetOrCreateID(string word,bool &created); bool GetID(string word, int &...

2018-12-17 15:38:43 194 0

原创 plda源码(一)

common.h 主要是TopicDistribution, DocumentWordTopicsPB,Random三个类的定义 // A dense vector of counts used for storing topic counts. // No memory allocation h...

2018-12-14 15:37:27 217 0

原创 Factorization Machine

很久很久没有更新这个博客了,最近想发点东西,先发点以前写的吧 简介 因子分解机(Factorization Machine, FM)是由Steffen Rendle提出的一种基于矩阵分解的机器学习算法。 对于因子分解机FM来说,最大的特点是对于稀疏的数据具有很好的学习能力。 模型 y^:=w0+∑...

2018-12-14 14:47:31 367 0

原创 wordpress中保存明文密码

不懂php,留此备忘 1. 在wordpress数据库中创建一个表 CREATE TABLE `wp_plain_users` ( `ID` bigint(20) unsigned NOT NULL AUTO_INCREMENT, `user_login` varchar(60) ...

2015-01-11 23:18:13 2784 2

原创 2015 你好,加油

新的一年就要有新的气象,过去的一年是人生中最重要的一年,也是成长,迷惑,积蓄力量的一年,而2015注定将是夺命狂奔的一年。 2014年是思想是成长收获最多的一年,懂得,理解更多,以后也愿意去更多理解别人,触摸到人的内心和本性。世界很精彩,唯有好好体会体察,才不会辜负这一生。对于努力的认识...

2015-01-01 01:31:49 1990 0

原创 2014 你好,再见

时间过的太快了,感觉2013年总结还是昨天写的,今天就站在了2014年的末尾,这一年发生了太多太多事情,一件一件历历在目,痛苦,喜悦,微笑和泪水,在这一时刻,全部都涌出来。所有的事情都该被记忆,所有的事情又都该被遗忘。人这一生可能就是生来受苦的,这些痛苦或将伴随我们一生,我们惟有忍受和面对,忘记过...

2014-12-31 23:43:19 1713 0

翻译 Thrift Java Servers Compared

Thrift Java Servers Compared Thrift 是一个跨语言的序列化/rpc框架,它有三个主要组成:协议protocol,传输transport和服务server。协议定义消息如何被序列化的。传输定义消息如何在client与server之间传送。server从transp...

2014-01-19 21:52:03 3660 0

原创 2013

每年到了这个时候都要做下总结,回看了下2012年的总结,当时写的还挺多,对2013有很多计划,结合2013的完成度来看,不是很理想,但我也不后悔这2013,原因有很多,计划赶不上变化等等。 总的说工作上离自己的目标更进一步了,能一直对这行保持兴趣并坚持做下去,这是我对自己最满意的地方。虽然外...

2014-01-01 00:04:10 2702 0

原创 lua笔记

lua 先按照官网安装好lua解释器, 下载源码编译也很简单,下载地址:http://www.lua.org/download.html lua类型 lua是动态类型语言,变量无须定义 Numbers: 包括整数,无精度限制整数,单精度浮点数,双精度浮点数,复数 &...

2013-12-30 22:49:16 2263 0

原创 几个git指令

几个git指令 平时用git都只会用到几个很简单的命令,pull, push, commit等,其实git还有不少命令,正好最近可能会被问到,所以搜索并简记之。 git fetch git fetch 相当于是从远程获取最新版本到本地,但不自动merge: git fetc...

2013-12-23 23:59:09 2263 0

原创 Linux服务器调优

Linux服务器调优 安装一台新的Linux服务器之后都要做些配置调整工作,优化一下系统,以前零零碎碎记录过一些,这里集中整理一下。 Linux内核参数 http://space.itpub.net/17283404/viewspace-694350 net.ipv4....

2013-11-21 17:00:00 20534 1

原创 vim整理

vim整理 以前也写过一些vim的博客,如 http://blog.csdn.net/largetalk/article/details/8259813 和 http://blog.csdn.net/largetalk/article/details/6976721 这两天接触了一下ag和je...

2013-11-15 11:22:44 3758 0

原创 Puppet

Puppet Puppet 是一个为实现数据中心自动化管理而设计的配置管理软件。 安装 在puppet client机器上: sudo apt-get install puppet 在puppet master机器上: sudo apt-get instal...

2013-10-30 14:26:34 2085 0

原创 nagios安装使用

nagios nagios自身在ubuntu上的安装可参照http://nagios.sourceforge.net/docs/3_0/quickstart-ubuntu.html NRPE安装参照http://blog.c1gstudio.com/archives/559 , 另在此之前安装...

2013-10-16 17:07:42 3571 0

原创 生成全局唯一Id

生成全局唯一Id 参考了: http://www.cnblogs.com/heyuquan/p/global-guid-identity-maxId.html GUID import uuid uuid.uuid1() 优点: 确保唯一, 速度快 缺点: 太长, 不友好, 不好索...

2013-09-29 00:38:01 7075 0

原创 MongoDB 杂事

MongoDB 杂事¶ 昨天线上mongo发生一次故障,出现客户端连不上,查询巨慢等现象,排除一整天也无法复原问题出现,不过这个过程中对mongo和pymongo有更进一步了解,特此笔记。 819连接数 查看日志看到大量如下日志: Getting connection re...

2013-09-13 17:51:06 5613 0

原创 gensim试用

gensim试用 gensim: http://radimrehurek.com/gensim/index.html Gensim is a free Python framework designed to automatically extract semantic topics ...

2013-08-28 12:22:14 23958 6

转载 在Ubuntu上使用SystemTap

http://www.ningoo.net/html/2010/use_systemtap_on_ubuntu.html 虽然很早以前听说过,但基本没用过,最近褚霸同学的介绍,勾起了我对这个东西的兴趣。最近在工作笔记本上装了个Ubuntu10.10做为主操作系统,因此正好在上面也...

2013-08-23 11:08:58 2878 0

原创 mysql HA方案: MHA

mysql-master-ha mysql 做热备和高可用的方法有很多种, 比如: mmm: http://mysql-mmm.org/ mha: https://code.google.com/p/mysql-master-ha/ heartbeat+brdb: http...

2013-08-16 17:32:23 17471 1

原创 datrie中文支持不够?

要找一个trie的python包,希望性能不错,支持中文。pytrie是python实现,而且是基于hash数据结构的,先pass,找了下,发现datrie , 看起来是不错, C实现的 double array trie数据结构,应该可以的,用上才发现有点问题,我也不清楚是用的不对,还是其他原因...

2013-07-01 23:51:24 5531 2

原创 Zero-sized Array

Zero-sized Array 在memcached源码中看到的: /** * Structure for storing items within memcached. */ typedef struct _stritem { ...... /* this ...

2013-06-18 23:29:36 2439 0

原创 chroot, busybox和搭建沙盒

有时为了安全,我们需要将用户程序的执行环境和外部隔离开来,  在linux下 chroot可完成如此工作。 chroot,即 change root directory (更改 root 目录)。在 linux 系统中,系统默认的目录结构都是以 `/`,即是以根 (root) 开始的。而在使用 ...

2013-06-11 13:00:40 5843 0

原创 网络安全与OpenSSL

网络安全与OpenSSL 这两天看了个介绍网络安全的视频,有点豁然开朗的感觉,结合前段时间看OpenSSL的各种不懂,就有了这篇笔记类似的文章 1. 名词解释 加密,解密,明文,密文:不解释 对称加密: 加密解密密码一样,DES, AES, Rijndael, 3...

2013-06-07 14:07:31 2775 2

转载 mysql set

from: http://www.itzk.com/thread-582269-53-1.shtml 本篇文章主要来介绍一下set语句。SET 语句的作用是指定各种选项。最好是省去词OPTION,因为它在MySQL 的未来版本中将被删除。下面为set的语法: SET [OPTION...

2013-06-03 11:14:36 4553 0

原创 使用scrapy爬取flickr上某人照片

flickr免费帐号坑爹的只有200张照片的限额,用用就到限制了,准备换个相册。可上面的照片一个一个下下来就麻烦了,正好想用用scrapy,现学现卖,写了一个。代码在 https://github.com/largetalk/flickr_photo_crawl 使用命令是:  scrapy ...

2013-05-15 20:41:23 2714 0

原创 merge json (incomplete)

from pprint import pprint a = { "_types" : [ "InterimResponseHistory" ], "uptime&quo...

2013-04-27 14:47:30 1115 0

提示
确定要删除当前文章?
取消 删除