2017年02月_Claroja

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

翻译所以，什么是大数据

原文链接：http://www.kdnuggets.com/2017/02/what-is-big-data.html当我第一次听见“大数据”的时候，我并没有思考太多。不久之后，“大数据”开始不断的出现在我和我的IT朋友的聊天之中。所以我开始问自己“什么是大数据”？我不断的为我自己的朋友们这个问题，而从来没有得到过完全相同的答案。“是很多很多的数据”、“是各种各样的数据”、“是快速堆积起来的数据”。

2017-02-20 16:31:59 727

原创在过去的12个月（2016）里，你用到的最多的算法或方法是什么？

原文链接:http://www.kdnuggets.com/2016/09/poll-algorithms-used-data-scientists.html这个调查问卷一共有844个投票，排名前10的算法如下图所示：在最后作者又给出了2011年和2016年投票结果的对比。 N Algorithm 算法 Type 2016 %

2017-02-20 15:20:27 1100

原创数据科学近3年都应用在哪些领域？

在KDnuggets Poll中Gregory Piatetsky做了一个关于数据科学应用领域的调查。调查的具体内容是让读者悬着数据分析、数据挖掘、数据科学在2016年都应用在哪些领域。(KDnuggets Poll asked readers to select Industries / Fields where you applied Analytics, Data Mining, Data S

2017-02-20 11:14:18 8959

原创 R语言分类算法之集成学习（Bootstrap Aggregating）

1.集成学习（Bootstrap Aggregating）原理分析: Bagging是Bootstrap Aggregating的缩写,简单来说,就是通过使用boostrap抽样得到若干不同的训练集,以这些训练集分别建立模型,即得到一系列的基分类器,这些分类器由于来自不同的训练样本,他们对同一测试集的预测效果不一样.因此,Bagging算法随后对基分类器的一系列预测结果进行投票(分类问题)和平均(

2017-02-16 10:56:11 7367

原创 R语言分类算法之随机森林(Random Forest)

1.原理分析: 随机森林是通过自助法(boot-strap)重采样技术,从原始训练样本集N中有放回地重复随机抽取k个样本生成新的训练集样本集合,然后根据自助样本集生成k个决策树组成的随机森林,新数据的分类结果按照决策树投票多少形成的分数而定. 通俗的理解为由许多棵决策树组成的森林,而每个样本需要经过每棵树进行预测,然后根据所有决策树的预测结果最后来确定整个随机森林的预测结果.随机

2017-02-16 10:32:29 12504 1

原创 R语言聚类算法之期望最大化聚类(Expectation Maximization Algorithm)

1.原理解析: 它将数据集看作一个含有隐性变量的概率模型,并以实现模型最优化,即获取与数据本身性质最契合的聚类方式为目的,通过”反复估计”模型参数找到最优解,同时给出相应的最优类别k.而”反复估计”的过程即是EM算法的精华所在,这一过程由E-step(Expectation)和M-step(Maximization)两个步骤交替进行来实现。 2.在R语言中的应用期望最大化聚类主要运用

2017-02-16 10:12:24 2782

原创 R语言聚类算法之密度聚类(Density-based Methods)

1.原理解析: 1.从数据集中选择一个未处理的样本点 2.以1为圆心,做半径为E的圆,由于圆内圈入点的个数为3,满足密度阈值Minpts,因此称点1为核心对象(黑色实心圆点),且将圈内的4个点形成一个簇,其中点1直接密度可达周围的3个灰色实心原点; 3.重复步骤2若干次,其中点1直接密度可达核心对象3,且点2密度可达点3. 4.当该过程进行到图Ⅳ,4的E邻域内仅有2个点,小雨阈值MinPts

2017-02-16 09:58:22 7170 1

原创 R语言聚类算法之系谱聚类(Hierarchical Method)

1.原理解析: 不需要先设定类别数K,这是因为它每次迭代过程仅将距离最近的两个样本/簇聚为一类,其运作过程将自然得到k=1至k=n个类别的聚类结果。 2.在R语言中的应用系谱聚类(Hierarchical Method)主要运用到了stats包（R语言内置包）中的hclust()；cutree()；rect.hclust()三个函数。 hclust(d,method=”complete

2017-02-16 09:44:19 5850

原创 R语言聚类算法之k中心聚类(K-medoids)

1.原理解析: 针对K-均值算法易受极值影响这一缺点的改进算法.在原理上的差异在于选择个类别中心点时不取样本均值点,而在类别内选取到其余样本距离之和最小的样本为中心。 2.在R语言中的应用 k中心聚类(K-medoids)主要运用到了R语言中cluster包（R语言内置包）中的pam函数。 pam(x,k,diss=inherits(x,”dist”),metric=”euclide

2017-02-16 09:34:08 10348

原创 R语言聚类算法之k均值聚类(K-means)

1.线性判别原理解析: 随机选取k(预设类别数)个样本作为起始中心点,将其余样本归入相似度最高中心点所在簇(cluster),再确立当前簇中样本坐标的均值为新的中心点,一次循环迭代下去,直至所有样本所属类别不再变动. 2.在R语言中的应用在k均值聚类中我们应用到了stats包（R语言内置包）中的kmeans函数。 kmeans(x,centers,iter.max = 10,n

2017-02-16 09:21:13 12774

原创 R语言高级算法之人工神经网络（Artificial Neural Network）

1.人工神经网络原理分析: 神经网络是一种运算模型,由大量的节点(或称神经元)和之间的相互连接构成,每个节点代表一种特定的输出函数,称为激励函数(activation function).每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,这相当于人工神经网络的记忆.网络的输出则依网络连接方式/权重值和激励函数不同而不同. 2.在R语言中的应用在人工神经网络（Artifici

2017-02-15 14:32:23 6986

原创 R语言高级算法之支持向量机(Support Vector Machine)

1.支持向量机原理解析机器学习本质上就是一种对所研究问题真实模型的逼近,通常会假设一个近似模型,然后根据适当的原理将这个近似模型不断逼近真实模型.结构风险就是指近似模型与真实模型之间的差距. 我们可以用某些方法来逼近真实模型,最直观的想法就是使用分类器在样本数据上的分类结果与真实结果之间的差值来表示,这个差值统计上为经验风险Remp(W). 在过去的机器学习方法中,通常将经验风险最小化作为努

2017-02-15 13:41:41 4278

原创 R语言分类算法之距离判别(Distance Discrimination)

1.距离判别原理分析根据待判定样本与已知类别样本之间的距离远近做出判断.根据已知类别样本信息建立距离判别函数式,再将各待判定样本的属性数据逐一代入式中计算,得到距离值,再根据此将样本判入距离值最小的类别的样本簇. K最近邻算法则是距离判别法中使用最为广泛的,他的思路是如果一个样本在特征空间中的K个最相似/最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别. 图中3

2017-02-15 11:17:06 17613 5

原创 R语言分类算法之朴素贝叶斯分类(Naive Bayesian Classification)

1.朴素贝叶斯分类原理解析根据已知的先验概率P(A|B),利用贝叶斯公式P(B|A)=P(A|B)P(B)/P(A)求出后验概率P(B|A),即该样本属于某一类的概率,然后选择具有最大后验概率的类作为该样本所属的类. 也就是说,对于给出的待分类样本,求出在此样本出现条件下各个类别出现的概率,哪个最大,就认为此样本属于哪个类别. 其优势在于不怕噪声和无关变量,不足之处在于,它假设各个特征属性是

2017-02-15 09:46:49 12863 2

原创 R语言分类算法之线性判别分析(Linear Discriminant Analysis)

1.费希尔(Fisher)判别原理解析基本思想是”投影”,即高纬度空间的点向低纬度空间投影,从而简化问题的处理.在原坐标系下,空间中的点可能很难被分开,如图8-1,当类别Ⅰ和类别Ⅱ中的样本点都投影至图中的”原坐标轴”后,出现了部分样本点的”影子”重合的情况,这样就无法将分属于这两个类别的样本点区分开来;而如果使用如图8-2中的”投影轴”进行投影,所得到的”影子”就可以被”类别划分线”明显

2017-02-14 14:59:27 23794 7

原创 R语言实现分层抽样(Stratified Sampling)以iris数据集为例

1.观察数据集head(iris) 选取数据集中前6个数据，我们可以看出iris数据集一共有5个字段。dim(iris) iris数据集一共有150条数据，5个字段summary(iris) 观察各个变量的内容，可以看出前四个变量（Sepal.Length Sepal.Width Petal.Length Petal.Width）都是定量变量，而最后一个（Species）是定性变量，我们将依

2017-02-14 11:28:43 29571 5

原创数据分析的一般过程

1.数据预处理主要包括了重复值处理、缺省值处理、抽样处理、训练集和测试集处理。 2.应用模型根据要求选择相应的数学模型进行分析。这里主要包括了分类算法，聚类算法，关联分析，回归分析4大类型的模型应用。 3.观察处理结果在套用相应的数学模型之后会产生相应的处理结果，比如在回归分析中会产生相关系数，而关联分析中则会产生提升度等指标。 4.图形可视化在R语言中一般使用plot函数来作

2017-02-13 10:07:22 627

opencv_yolo3.part1.rar

opencv和yolo3的结合,因为需要用到权重等文件,比较大,所以分开打包,这是part1.

2019-08-20

opencv_yolo3.part2.rar

opencv和yolo3的结合,因为需要用到权重等文件,比较大,所以分开打包,这是part2.

2019-08-20

IDE直接和hadoop集群连接

hadoop可以使用IDE直接和集群连接,这样就可以直接在ide里进行测试了

2019-03-20

Win本地测试hadoop

Windows本地来测试hadoop的文件,方便进行快速的开发和迭代

2019-03-20

Linux提交hadoop任务

linux上传hadoop任务,总共包含了三个文件,分别是mapper,reducer,和jobsubmitter

2019-03-20

tesseract软件包

tesseract开发的工具包，包含了tesseract安装包，字体训练工具，以及一些验证码的样例

2018-10-10

java8安装包jdk-jre

-java8的开发环境

2018-10-10

文本挖掘资源

https://catalog.data.gov/dataset/consumer-complaint-database

2018-04-18

utf-8 unicode编码表

所有的utf-8 unicode编码,都可以在表里面查询,方便进行文本处理.

2018-03-26

linux tmux原版参考手册

tmux 英文参考手册

2017-06-14

iris数据集

博客里用到的数据集

2017-02-26

2016最新中国行政区划分

来源：国家统计局设管司发布时间：2016-08-09 11:28 发布地址：http://www.stats.gov.cn/tjsj/tjbz/xzqhdm/201608/t20160809_1386477.html 解压密码：http://blog.csdn.net/claroja 如有其他问题可以给我留言，或者联系我的QQ：63183535，亲手制作！

2016-12-12

CSDN 如何搜索自己感兴趣的问题回答？

2017-05-14

TA创建的收藏夹 TA关注的收藏夹

TA关注的人