关闭

数据存储---GreenPlum实践

GreenPlum作为一个很好的开源的数据仓库,一直想体验一把,最近装了一个.关于安装,网上资料介绍也多了不少,至少越来越多,不过真正装一把才知道还是有各种坑的,不是那么一帆风顺的.        Greenplum在线安装文档 http://gpdb.docs.pivotal.io/500/install_guide/prep_os_install_gpdb.html#topic8...
阅读(57) 评论(0)

数据存储---REDIS cluster

好久没有写了,还是慢慢拾起来吧。前面很早就说过要搞个redis cluster,这次我们就来一个。下面记录下我的操作。 groupadd zookeeper useradd -g zookeeper -G zookeeper -d /home/zookeeper zookeeper passwd zookeeper groupadd redis useradd -g redi...
阅读(82) 评论(0)

数据挖掘---分类算法之SOFM算法

生物学研究表明,在人脑感觉通道上,神经元的组织原理是有序排列的,输入模式接近,对应的兴奋神经元也相近。大脑皮层中神经元这种相应特点不是先天形成的,而是后天的学习自组织形成的。  对于某一图形或某一频率的特定兴奋过程是自组织特征映射网中竞争机制的生物学基础。神经元的有序排列以及对外界信息的连续映像在自组织特征映射网中也有反映,当外界输入不同的样本时,网络中哪个位置的神经元兴奋在训练开始时时随机的。...
阅读(1559) 评论(1)

数据挖掘---分类算法之朴素贝叶斯算法

贝叶斯分类是一种统计学分类方法,在分类问题中表现出良好的性能。很明显朴素贝叶斯基于贝叶斯定理,下面来简单复习下贝叶斯定理。 在说之前我们来看下条件概率的计算,所谓"条件概率"(Conditional probability),就是指在事件B发生的情况下,事件A发生的概率,用P(A|B)来表示。 现在需要计算在事件B发生的情况下,事件A发生的概率。 有了这个之后,我们可以对对条...
阅读(249) 评论(0)

数据挖掘---分类算法之K近邻(KNN)算法

K近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。         KNN 算法本身简单有效,它是一种 lazy-learning 算法,分类器不需要使用训练集进行...
阅读(692) 评论(0)

数据挖掘---分类算法之支持向量机实践

有了前面两篇的介绍,相信你对支持向量机有了更多的理解。这里我们一起来说说关于支持向量机代码实践那点事。 有很多方式可以做到,我们这里还是举例说明下: 1,使用libsvm 2,使用R 3,使用SPSS 还有更多的方式,例如mahout,spark MLlib等等。后面有机会都列出来。...
阅读(289) 评论(0)

数据挖掘---分类算法之支持向量机SVM

上篇已经简单的说了下支持向量机的理论,里面有不少公式,需要肯学习的你一步步的推导试一试,说实在的还是挺能考验数学能力的,当年俺老孙就是一步步的推导过。只有这样你才能对这个过程有清晰的认识,才能对这个算法有所体会。          下面来举个例子,所说用支持向量机解决异或问题。这个例子是在一个书上看到的,摘录下面希望能够加深对支持向量机的理解。(部分公式不好编辑,所以直接截图,为了和截图的字体大...
阅读(614) 评论(0)

数据挖掘---分类算法之支持向量机SVM

这篇来说说支持向量机,说实在的,这个是我的最爱,一直比较看好这个算法,而且也是花了不少时间在这个上面,下面一起来复习下。            基于统计学习理论的支持向量机算法是现代智能技术中的重要方面,研究从观测数据(样本)出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测。与传统统计学相比,统计学习理论(Statistical Learning Theory,SLT)是一种专门...
阅读(689) 评论(3)

数据挖掘---分类算法之神经网络算法BPN实践

有了上篇的基本理论之后,我们可以尝试去代码实现基本的一个BPN算法。          具体的算法代码,后面给出。就像前面说过的,有几个东西需要调节注意的,学习率和惯性因,初始权值和阈值,收敛误差界值Emin。这几个问题其实是很多类似算法都遇到的问题,细节这里不多说。          除了自己代码实现外,还有很多工具可以帮助我们实现和理解神经网络算法,现在举例说明下。          1...
阅读(800) 评论(1)

数据挖掘---分类算法之神经网络算法BPN

有段时间没有写了,觉得很有必要继续加油写下去。一直有想梳理下主要的机器学习算法了,做一个从各个主流算法到新兴的算法,都做一番回顾,理论结合代码实践,做一个复习,毕竟温故而知新。顺便说下,什么机器学习,数据挖掘,人工智能,这几个词语很多,也很容易用的模糊了,边界不是很清晰,我也不想做过多的解读与区分,免得弄巧成拙,或者班门弄斧。还是埋头实践吧。        后面的几篇主要从这么几个类别来整理:...
阅读(2897) 评论(3)

数据处理---Spring Batch之进阶

有了前面两篇的基础之后,我们一起来聊聊更高级的关于Spring Batch的话题。比如Job 配置;自定义各种Listener;控制步骤流程;自定义Reader,Processor,Writer;并行处理。这些东西在Spring Batch的使用中很多可能会需要的,当然还有更多的内容,最好找下文档,这样上手就快很多。...
阅读(15538) 评论(0)

数据处理---Spring Batch之实践

上面介绍了Spring Batch的基本概念和简单的demo项目,显然这些还是不够实际使用的。下面我们来更多的代码实践。         在上面的基础项目上面,我们来更多的修改:         不用项目默认的hsql DB,用mysql,让ItemReader,ItemWriter 支持mysql;         支持总结处理结果自定义保存到数据库,我们用项目里面的JPA;...
阅读(3573) 评论(0)

数据处理---Spring Batch之基础

Spring框架提供了强大的底层结构,基于此,Spring出现了很多方面的应用。Spring Batch就是其一,它是一个轻量级的,完全面向Spring的批处理框架,可以应用于企业级大量的数据处理系统。Spring Batch以POJO和大家熟知的Spring框架为基础,使开发者更容易的访问和利用企业级服务。Spring Batch可以提供大量的,可重复的数据处理功能,包括日志记录/跟踪,事务管理...
阅读(2144) 评论(2)

大数据不是神话,不是泡沫,是在其上构建的创意和生意(转载)

大数据不是神话,不是泡沫,是在其上构建的创意和生意(转载,有节删,原文链接http://developer.51cto.com/art/201511/497883.htm) 大数据仍然是巨人游戏 每次重要的技术革新都带给市场一次重新洗牌的机会。这次革新体现尤为突出,值得注意的是这次变革开源社区一开始就参与进来,并且始终在技术层面上推动。这一点不同造成影响非常深刻,甚至改变了游戏规则。 第...
阅读(293) 评论(0)

数据提取-Selenium专治各种顽固性客户端

说起Selenium,很多人想到的是Selenium用在自动化web测试上,的确,Selenium是一个很好的自动化测试工具,能够实现很多便利的测试功能。其实Selenium也是一款数据抽取的神器。我们知道现在很多网站使用了很多javascript,ajax,cookie,session等等,或者人为设置了很多规则来防止/限制爬虫,有过提取数据的都知道在提取数据的过程中,会遇到各种顽固性问题,想上...
阅读(1097) 评论(0)
62条 共5页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:68080次
    • 积分:1212
    • 等级:
    • 排名:千里之外
    • 原创:59篇
    • 转载:2篇
    • 译文:0篇
    • 评论:7条
    最新评论