云聪的技术错题集

基础的扎实程度直接决定高度

批量删除github项目-Java实现

项目源起 之前在github上了放了很多项目,但是大部分都是因为学习一项工具或者新技术时用示例代码创建的,意义不大,于是决定先把这部分项目导入到私有的gitlab里,然后在github里删除这部分项目;问题来了,github里删除一个项目比较繁琐,删除大量项目更是耗时耗力,于是写了一个项目用于批...

2017-06-18 19:11:54

阅读数 1755

评论数 1

Spark中使用HanLP分词

1.将HanLP的data(包含词典和模型)放到hdfs上,然后在项目配置文件hanlp.properties中配置root的路径,比如: root=hdfs://localhost:9000/tmp/ 2.实现com.hankcs.hanlp.corpus.io.IIOAdapter接口: ...

2017-06-08 18:09:53

阅读数 2671

评论数 2

从误用TreeSet到思考Java有序集合对相等和顺序比较一致性的要求

一、 发现问题 有这样一个任务:对一堆学生按照成绩进行排序。为了能够快速的获得有序结合,我选择了TreeSet这个有序数据结构来帮我完成这个任务。有两点让我认为TreeSet能够帮我快速获得有序的学生集合: (1)TreeSet基于红黑树实现,而红黑树是一个平衡二叉树,也就说,它的排序时间复杂...

2017-05-14 17:28:38

阅读数 1036

评论数 0

HttpClient4.3.6源码阅读 RequestConfig.Builder(Builder模式实践)

Builder(org.apache.http.client.config.RequestConfig.Builder) 是RequestConfig(org.apache.http.client.config.RequestConfig) 的内部类,专门用于创建RequestConfig。我...

2017-01-15 10:18:38

阅读数 3418

评论数 0

基本算术编码

1.基本思想 算术编码,就是用一个数编码一串字符串。

2017-01-15 01:21:38

阅读数 7927

评论数 0

集束搜索学习资料

Beam Search(集束搜索/束搜索) Beam Search Algorithm (Draft by Andrew Jungwirth)

2016-11-25 12:45:29

阅读数 932

评论数 0

A*(A星)算法学习资料

A*算法原理_面向初学者 A*算法原理图文详解 A*算法-java代码实现 堪称最好的A*算法

2016-11-22 21:20:57

阅读数 437

评论数 0

python使用opencv读取图片失败

>>> import cv2 >>> img = cv2.imread('D:\test\8.png',cv2.IMREAD_COLOR) >>> cv2.imshow('origin',img) OpenCV Error: Assertion...

2016-11-12 23:52:08

阅读数 16044

评论数 6

weka 3.6.13-SNAPSHOT 过滤器StringToWordVector参数含义解释

IDFTransform: 值为true时,把文档中单词出现的次数val(或者TFTransform转化后的值)转化为 val∗Math.log(doc_total_num/doc_num_contain_this_word)val*Math.log( doc\_total\_num/doc\_...

2016-10-16 17:20:36

阅读数 1125

评论数 0

降维——PCA(主成分分析)

降维技术使得我们可以用低维向量表示高维向量。PCA是降维技术的一种,它的思想是,把一个高维向量投影到低维子空间中,子空间基的选择原则是尽量使得投影前不同的向量在投影后依旧不同。接下来,我们就具体介绍PCA的工作原理。

2016-09-15 00:25:16

阅读数 1724

评论数 0

线性回归——最小二乘求解

线性回归 线性回归用于数值预测,它的主要思想是利用预定的权值将属性进行线性组合来表示类别: y=w0+w1x1+w2x2+...+wnxny = w_0 + w_1x_1 + w_2x_2 + ... + w_nx_n

2016-09-11 14:47:04

阅读数 2356

评论数 0

zookeeper学习资料

Zookeeper与paxos算法 ZooKeeper 安装部署及hello world 分布式理论之一:Paxos算法的通俗理解

2016-09-08 22:12:58

阅读数 659

评论数 0

层次聚类——自底向上方法

直观认识 假设数据集D={a,b,c,d,e}D=\{a, b, c, d, e\}, 在D上运行自底向上的层次聚类算法的过程如下图所示:

2016-09-04 22:51:44

阅读数 3788

评论数 1

划分聚类——Kmeans算法

划分聚类 聚类是针对一堆没有类别属性的对象的,它把这一大堆对象分成一些小堆,并保证小堆内的对象之间彼此相似,小堆之间的对象彼此不同。划分聚类是聚类的一种,由它生成的小堆,小堆间没有一样的元素,大堆小堆之间关系和大集合与它的的分割一样。

2016-09-04 21:07:45

阅读数 1174

评论数 0

序列模式挖掘——GSP算法

序列模式挖掘的基本概念 项目全集I、项集X和事务集合T的概念和文章关联规则挖掘——Apriori算法 中定义的一致。一个序列(Sequence)是一个有序的项集列表,这个有序通常是指时间有序。

2016-09-01 20:29:31

阅读数 5072

评论数 0

关联规则挖掘——Apriori算法

前言 大二的时候,一个老师为了勾起我们对数据挖掘的兴趣,老是问我们这个问题:你们知道超市为什么要把啤酒跟尿布放在一起吗?但是从来没告诉我们答案。现在,很多人都听过这个问题,觉得很平常,但是那时的我真觉得挺神奇的。直到后来,了解了关联规则挖掘,学习了关联规则挖掘的代表性算法Apriori,才终于知...

2016-08-31 00:26:42

阅读数 2278

评论数 1

KNN(K-最近邻)

算法介绍 KNN分类算法应该是最容易理解的机器学习算法了。它是惰性学习法的一种,它并不从训练数据集中得到一个分类模型,而是简单的存储这些训练数据,当一个待分类数据X到来时,它计算X和训练数据集中所有数据的距离,然后选择离X最近的k个数据,这k个数据称为X的k最近邻,并把这k个数据中出现次数最多的...

2016-08-29 00:07:53

阅读数 839

评论数 0

决策树

基础 熵 如果X是一个离散型随机变量,取值空间为R,其概率分布为p(x)=P(X=x),x∈Rp(x) = P(X = x), x \in R。那么,X的熵定义为: H(X)=−∑x∈Rp(x)log2p(x)H(X) = - \sum_{x \in R}p(x)log_2p(x)

2016-08-27 00:00:12

阅读数 923

评论数 0

朴素贝叶斯文本分类

基础知识 1.多项式定理 (x1+x2+...+xr)n=∑(n1,...,nr):n1+...+nr=n(nn1,n2...nr)xn11xn22...xnrr(x_1 + x_2 + ... + x_r)^n = \sum_{(n_1,...,n_r):n_1+...+n_r=n}(_{n...

2016-08-24 22:29:24

阅读数 845

评论数 2

朴素贝叶斯分类

基础知识

2016-08-23 12:31:58

阅读数 570

评论数 2

提示
确定要删除当前文章?
取消 删除
关闭
关闭