刚搬完砖-CSDN博客

原创程序员的职业素养 (the clean coder读书笔记)

程序员的职业素养 (the clean coder读书笔记)by 刚搬完砖这本书是作者总结自己几十年工作经验，给如何做一名"专业"程序员提出的建议。专业主义有深的含义，不象征荣誉与骄傲，而是责任与义务。作者认为专业程序员应该有如下义务: 定义专业的"完成"。专业的完成是，保证代码质量的前提，是从需求对接、单元测试、研发、回归测试等一系列工作后，称为完成很多开发一开始就不了解产品提出的需求，就一顿开发，最后才发现需求没对清楚（包括我自己也犯过）有没有写.

2020-12-29 08:39:31 270 1

原创在pytorch中load超大训练数据

在pytorch中load超大训练数据by joeyqzhou相关代码地址: https://github.com/joeyqzhou/blog/tree/master/pytorch%E4%B8%ADload%E8%B6%85%E5%A4%A7%E8%AE%AD%E7%BB%83%E6%95%B0%E6%8D%AE最简单方式:1 单线程获取数据到内存中2 train的过程 for epoch in range(num_epochs): for i in range(i

2020-12-21 20:22:46 2356 1

原创 spring boot项目不能被其他项目依赖解决方法

在pom的spring boot的配置中增加如下``` <configuration> <classifier>exec</classifier> </configuration>```插入位置:<plugin> <groupId>org.springframework.boot</groupI...

2020-05-07 20:27:59 937

原创神经网络检索方法与一种结合local和distributed文本相似度算法

神经网络检索方法与一种结合local和distributed文本相似度算法by joeyqzhou基于频次的信息检索方法信息检索(IR), 简单说，就是给一个query, 返回与其最相关的doc. 传统的IR方法有tfidf, BM25, 它们主要考虑的是query中词语的确定性匹配(不能匹配到类似词）。即词在某篇候选doc中出现的次数(term frequency)和在所有doc中出现...

2020-03-27 17:58:21 820

原创 tensorflow批量直方图快速计算

最近在实现DRRM, 计算直方图，官方的api, tf.histogram_fixed_width不支持批量的直方图计算在网上搜了一些方法，https://stackoverflow.com/questions/41764199/row-wise-histogram/，但是运算速度都比较慢，我自己想了一种，根据连续值转整型的方法，来进行批量计算直方图。tensor: 是输入的tensorn...

2020-03-22 18:08:25 864

原创总结ES的各种查询与打分方式:

总结ES的各种查询与打分方式:match_all: 查询所有字段match 查询某个字段，并且根据(tfidf or bm25)打分match_pharse 查询短语，区别于match他要考虑前后顺序. 可以设置slop=整数，来设定词语之间的最大距离term: 查询单个词(区别于match, 是查询没有被analysize的语料(即比如大小写转换。。)).terms: 查询多个词q...

2019-08-25 17:04:58 4019

原创如何搭建tensorflow serving

这两天学习如何搭建tf.serving，就此总结一下.1 安装、学习dockertf.serving的运行环境比较繁琐，在这个环境配好了，另一个不行。docker解决了这个问题。官方文档中也推荐使用docker2 参考tf.serving github README# Download the TensorFlow Serving Docker image and repodocker ...

2019-08-17 22:28:57 485

原创 mac 硬盘占用过大？

今天发现mac系统system占用了120多G, 搜索了一下，有的说是time machine过多备份，有的是office的问题。但这都不是我的电脑系统的问题。我操作的顺序1 去到根目录，使用” du -sh *” 目录加起来并没有200G2 su du -sh * (出现sorry). 所以Mac进入root权限的方法是”sudo su”3 du -sh * | grep G4 ...

2019-05-13 14:31:28 5244

原创机器学习: ensemble learning

机器学习: ensemble learningensemble learning即把多个模型综合成一个模型。这样往往能达到不错的效果。原因为: 不同的模型可能采用了不同的数据、或对数据的刻画方式角度不一样；直觉上讲，如果一个问题从多个角度去看，那么效果往往会比从单角度看效果更好。各种ensemble的方法，据说在kaggle比赛中也有明显的效果ensemble的方式大致分几类:baggin...

2018-12-16 16:09:53 324

原创 Spark中分布式使用HanLP（1.7.0)分词d

Spark中分布式使用HanLP（1.7.0)分词HanLP分词（https://github.com/hankcs/HanLP），如README中所说，如果没有特殊需求，可以通过maven配置，如果要添加自定义词典，需要下载“依赖jar包和用户字典".本人一些经验:是直接"java xf hanlp-1.6.8-sources.jar" 解压源码，把源码加入工程（依赖本地jar包，有些麻...

2018-12-01 17:27:27 2060 4

原创 gitignore 例子只包含特定文件

git工程只上传必须的文件，所以需要在一个文件（跟目录.gitignore)下面记录需要忽略的文件或文件夹。下面举例.gitignore, 该模版适合去除一些指定目录，并且仅仅包含其他目录下的特定结尾的文件:*!/**/##去除哪些路径/dirignore1//dirignore2/##只包含哪些结尾的文件!*.c!*.h!*.cpp!*.sh!*.xml!*.py!*.md!*.jar!.sca

2018-01-19 17:17:48 6819 1

原创重构笔记

重构笔记>By joeyqzhou>摘自重构 Martin Fowler- The first Step in refactoring is to build a solid set of tests - It is vital to make tests self-checking - 更改到更好的变量名是很有意义的 - code that communicates its purpo

2016-08-18 19:47:53 523

原创信息论小结

信息论小结 joey 周琦某个事件x发生的概率为p(x),那么该事件的信息量h(x)=−logP(x) h(x)=-\log P(x) 该定义满足h(x)>=0若事件x,y相互独立，那么h(x,y)=−logp(x,y)=−logp(x)p(y)=h(x)+h(y) h(x,y)=-\log p(x,y)=-\log p(x)p(y) = h(x) + h(y) 熵：可以表示某个随机事

2016-05-30 19:53:44 668

原创大数据工程师为什么要学习scala

>joey 周琦现在很多数据处理用的是python或R, 那么现在我们对比下scala和python在大数据处理方面的优劣： - scala与python对比 - scala 相对于c语言慢2-3倍，但是python一般比c语言慢50倍。（只是大概，实际会情况不同） - scala 缺少python那样丰富的数据处理,机器学习的包（Numpy, scipy, matplotl

2016-01-03 10:40:59 5678 1

原创机器学习概念：最大后验概率估计与最大似然估计（Maximum posterior probability and maximum likelihood estimation)

joey 周琦假设有参数θ\theta, 观测x\mathbf{x}, 设f(x|θ)f(x|\theta)是变量xx的采样分布，θ\theta是其中的参数。那么θ\theta的最大似然估计可以表示为： θ̂ ML(x)=argmaxθf(x|θ) \hat \theta_{ML}(x) = \arg \max \limits_{\theta} f(x|\theta)而贝叶斯理论，假设θ\the

2015-11-25 18:01:31 1585

原创机器学习算法之正则化

>By joey周琦正则化假设目标函数为JJ, 比如JJ可以是对数似然函数的负数形式，特征ii的系数为wiw_i, 系数向量 w=[w1,...,wK] w = [w_1,...,w_K] ,假设一共有KK个备选类。机器学习（分类为例）的目标就是要解决一个优化问题 w=argminwL(w) w = \arg \min \limits_w L(w) 而为了避免模型的过拟合(overfitti

2015-11-17 15:46:43 4096

原创高效相似度计算 LSH minHash simHash的学习

相似度计算：1 局部敏感哈希2 minHash3 simHash

2015-11-06 16:52:52 9281 1

原创机器学习算法之：决策树 (decision trees)

> By joey周琦概述线性模型一般variance小，bias大；而树模型一般variance大，bias小决策树的优点：具有可读性，分类速度快一般包含三个步骤：特征选择决策树生成剪枝决策树定义：分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结点分为内部结点和叶结点，内部结点表示一个特征(feature),

2015-10-20 19:16:40 3002

原创 Dummy variable (变量dummy化）

总是可以从身边同学口中听到说到dummy化，dummy lr, 今天自己看了dummy variable的wiki，这里记下笔记总结：dummy variable是用0或1表示某个类别是否出现为什么要dummy化若用数字1-12表示1-12月，那么就潜在表示了12月和1月差的很远，其实离的很近若用离散数字表示一地域，假如用数字1-23表示23个省，那么数字潜在的意思是，相邻的数字代表的省比

2015-09-26 21:21:42 38927 1

原创 kaggle比赛练习_1: 做的什么菜？（What's Cooking?）

Kaggle简介Kaggle是一个数据分析的竞赛平台，网址：https://www.kaggle.com/。企业或者研究者可以将数据、问题描述、期望的指标发布到Kaggle上，以竞赛的形式向广大的数据科学家征集解决方案，类似于KDD-CUP（国际知识发现和数据挖掘竞赛）。Kaggle上的参赛者将数据下载下来，分析数据，然后运用机器学习、数据挖掘等知识，建立算法模型，解决问题得出结果，最后将结果提交，

2015-09-25 17:54:10 4299 2

原创推荐系统综述与代码

推荐系统综述与代码 By Joey周琦引言与符号介绍一般来说，推荐系统可以归纳为，预测user对某item的评分或者点击率。问题描述如下user对item的互动，主要可以分为下面三个方面：scalar. (numerical(rating),ordinal). 标量的binary. (like,dislike) 二项的，0 or 1, 点or不点等unary. (purchase,on

2015-09-21 12:58:55 2358

原创机器学习_论文笔记_2: bagging predictors （ BREIMAN[1996]）

By joey周琦Bagging predictor可以产生多个版本的predictor, 并把这些predictor聚集(aggregate)为一个。这种策略对于不稳定的系统可以提高其精度。有一个学习数据集LL，包含数据(yn,xn),n=1,…,N{(y_n,x_n),n=1,\dots,N},其中xx为输入向量，yy或者为一个类（分类问题）或者数值（回归问题）。我们可以从数据集LL中学到一个

2015-09-07 16:17:39 2655

原创机器学习_论文笔记_1: A few useful things to know about machine learning

by joey周琦希望把自己阅读到的，觉得有营养的论文，总结笔记和自己想法，留给自己，也分享给大家。因为英文论文中一些专有，有难度的词句，会给出英文原文。这篇文章总结了有关机器学习的12条重要，简单，明了的经验。本文面对分类问题总结，但不限于分类问题。学习=模型+评估+优化 Learning = representation + evaluation + optimization。repr

2015-09-06 13:34:54 2413 1

原创机器学习算法之：指数族分布与广义线性模型

&amp;gt; 翻译总结By joey周琦参考NG的lecture note1 part3 本文将首先简单介绍指数族分布，然后介绍一下广义线性模型（generalized linear model, GLM), 最后解释了为什么逻辑回归（logistic regression, LR) 是广义线性模型的一种。指数族分布指数族分布 (The exponential family dist...

2015-09-03 20:45:50 15475 6

原创机器学习算法之：逻辑回归 logistic regression (LR)

by joey周琦逻辑回归属于probabilistic discriminative model这一类的分类算法。probabilistic discriminative mode这类算法的思路如下： - 直接建模P(Ck|x)P(C_k|x) - 利用最大似然估计和训练数据，估计出模型中的参数该类想法相对于生成模型（probabilistic generated model) 有参数较

2015-08-29 23:43:33 1598

原创机器学习算法之：分类算法概述

By joey周琦常见的分类算法大致可以分为三类：直接给一个discriminant function，直接确定输入feature x的属于哪一类。这类算法有SVMprobabilistic discriminative model.该类方法直接给P(Ck | x)建模， Ck表示第k类。该类算法有logistic regressionprobabilistic generated mode

2015-08-29 20:53:08 757

原创统计学中常见的英文缩写

在看英文概率书籍时候遇见上述词汇，概念有所不清，下面我总结下pmf:离散随机变量的概率密度函数，也有人翻译为概率质量函数。常见形式： Cpmf：就是离散随机变量的累积分布函数，不连续。Pdf:连续随机变量的概率密度函数，常见形式如高斯概率密度函数。 Cdf:连续随机变量的累积分布函数（分布函数）。就是对pdf的积分，形式如： Corelation coefficient：相关系数。如下式：

2015-08-29 17:15:41 20025

原创经验分享：大学生研究生如何找到一份数据挖掘的工作

2015-08-25 09:19:10 11603

原创如何利用python使用libsvm

一：libsvm包下载与使用： LIBSVM是台湾大学林智仁(Lin Chih-Jen)副教授等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包，他不但提供了编译好的可在Windows系列系统的执行文件，还提供了源代码，方便改进.在作者主页http://www.csie.ntu.edu.tw/~cjlin/可以方便下载。 1. 把包解压在C盘之

2015-08-25 09:19:05 802

原创方差，样本方差，修正样本方差，均值，样本均值等概念

首先，明确一点，方差，均值，是对一个随机变量而言的。样本均值，样本方差是针对一个样本而言的。举个例子，x是一个随机变量，，服从0均值，方差。根据x的分布，我们可以抽样的到N个样本。针对于x这个随机变量:均值是E(x)=0;方差是D(x)=E(x^2)-E^2(x); 针对于抽样得到的样本:样本均值是样本方差是修正样本方差是

2015-08-25 09:19:00 15381

原创 python numpy笔记：给matlab使用者

利用Numpy,python可以进行有效的科学计算。本文给过去常用matlab，现在正学习Numpy的人。在进行矩阵运算等操作时，使用array还是matrix??简短的回答,更多的时候使用array.使用array的唯一缺点就是你必须使用’dot’函数来代替*来进行矩阵乘法。 arraymatrix可以超过2维只能

2015-08-25 09:18:58 741

原创 python 操作符笔记：

操作符描述 x if y else z 三元描述（2.5新加）（类似于c中的 x?y:z x or y 或

2015-08-25 09:18:55 338

原创 python调试设置断点

1在所需要调试的地方加入如下代码： import pdb pdb.set_trace() 2调试代码常用命令：实例请见参考文献：1http://www.cnblogs.com/qi09/archive/2012/02/10/2344959.html2https://www.ibm.com/developerworks/cn/linux/l-cn-pyt

2015-08-25 09:18:53 9997 1

原创数据关联分析 association analysis (Aprior算法，python代码）

1基本概念购物篮事务（market basket transaction),如下表，表中每一行对应一个事务，包含唯一标识TID,和购买的商品集合。本文介绍一种成为关联分析(association analysis)的方法，这种方法，可以从下表可以提取出，{尿布}—>牛奶. 两个关键问题：1大型数据计算量很大。2发现的某种模式可能是虚假，偶然发生的。 2问题定义把数据可以转换为

2015-08-25 09:18:50 2754

原创 python lambda 用法

可以视lambda为一个简易的函数，它不需要return,形式简单 #冒号左边是变量 #冒号右边是返回值例： >>> def f (x): return x**2... >>> print f(8)64 >>> >>> g = lambda x: x**2>>> >>> print g(8)64 >>> foo = [2,

2015-08-25 09:18:48 409

原创简单的神经元算法实现(python)

参考python代码如下#perceptronx=[[1 ,0, 0],[1,0,1],[1, 1, 0],[1, 1, 1],[0,0,1],[0,1,0],[0,1,1],[0,0,0]]y=[-1,1,1,1,-1,-1,1,-1]#真值y_pre=[0,0,0,0,0,0,0,0]#初始化_DEBUG=Truew=[0 ,0 ,0 ,0.0]la

2015-08-25 09:18:46 1724

原创 Permutation Test 置换检验(转）

Permutation Test 置换检验显著性检验通常可以告诉我们一个观测值是否是有效的，例如检测两组样本均值差异的假设检验可以告诉我们这两组样本的均值是否相等（或者那个均值更大）。我们在实验中经常会因为各种问题（时间、经费、人力、物力）得到一些小样本结果，如果我们想知道这些小样本结果的总体是什么样子的，就需要用到置换检验。 Permutation test 置换检验是Fisher于20世

2015-08-25 09:18:43 32865 7

原创统计 p-value 含义

p-value是一种概率：在原假设为真的前提下，出现该样本或比该样本更极端的结果的概率之和。例子：我们假设H0:出现正面的概率是1/2扔硬币20次出现了14次正面.该样本的单边p-value计算如下：考虑双边检验时候，p-value是单边的二倍，即0.115 参考文献：http://en.wikipedia.org/wiki/P-val

2015-08-25 09:18:41 5959

原创 Fisher's exact test( 费希尔精确检验)

Fisher's exact test[1][2][3] is a statistical significance test used in the analysis ofcontingency tables. Although in practice it is employed when sample sizes are small, it is valid for all sample s

2015-08-25 09:18:38 37024 2

原创 R语言中的箱图介绍 boxplot

画箱图的函数： boxplot()##help(boxplot)查询具体用法图例的解释：如下图，是两个简单的箱图。中间的箱子的上下边，分别是第三，一个四分位数。中间的黑线是第二四分位数（中位数）。设r是变量的四分位距，箱图上方的小横线是小于或等于第三个四分位数+1.5*r的最大观测值。同时下方的小横线是，大于等于第一个四分位数减去1.5*r的最大的观测值。

2015-08-25 09:18:36 27770