花名:白起

科技改变世界,技术改变人生。

关联规则推荐算法的原理及实现

关联规则用来发现数据间潜在的关联,最典型的应用是电商网站的购物车分析。本文将通过一个简单的例子来说明关联规则中各个术语的含义以及具体的计算方法。 这是一些用户的购物数据,uid是用户的ID,后面是每个用户具体购买的商品名称,我们使用字母进行标识。下面我们将使用关联规则对这些数据进行分析,挖掘...

2017-04-28 14:34:38

阅读数:441

评论数:0

redis动态增加内存(不重启)

在redis的使用过程中,有时候需要修改redis的配置,如在业务运行的情况下,内存不够怎么办,这时要么赶紧删除无用的内存,要么扩展内存。如果有无用的内容可删除那么所有问题都已经解决。如果内容都是重要的,那只能选择扩展内存。说到扩展内存,redis为我们提供了一个动态调整的命令。 CONFIG ...

2017-04-27 19:22:00

阅读数:3397

评论数:0

kMeans算法(K均值聚类算法)

机器学习中有两类的大问题,一个是分类,一个是聚类。分类是根据一些给定的已知类别标号的样本,训练某种学习机器,使它能够对未知类别的样本进行分类。这属于supervised learning(监督学习)。而聚类指事先并不知道任何样本的类别标号,希望通过某种算法来把一组未知类别的样本划分成若干类别,这在...

2017-04-27 16:33:49

阅读数:364

评论数:0

kafka集群下线broker节点实践方法

kafka集群 broker 0(10.11.32.76    hadooptest76.bj) broker 1(10.11.32.77    hadooptest77.bj) broker 2(10.11.32.81    hadooptest81.bj) 操作任务:下线broker 2节点...

2017-04-27 16:20:48

阅读数:4137

评论数:0

zookeeper集群扩容/下线节点实践

环境: zookeeper版本 3.4.6 jdk版本 1.7.0_80 10.111.1.29 zk1 10.111.1.44 zk2 10.111.1.45 zk3 10.111.1.46 zk4 10.111.1.47 zk5 一、zookeeper集群扩容(3 ->...

2017-04-27 16:15:26

阅读数:3483

评论数:0

ElasticSearch系列10:分布式集群的特性

在开始我们提到Elasticsearch可以扩展到上百(甚至上千)的服务器来处理PB级的数据。然而我们的教程只是给出了一些使用Elasticsearch的例子,并未涉及相关机制。Elasticsearch为分布式而生,而且它的设计隐藏了分布式本身的复杂性。 Elasticsearch在分布式...

2017-04-26 19:04:35

阅读数:480

评论数:0

ElasticSearch系列09:ElasticSearch2.4集群搭建

环境: 节点1 10.11.32.76 hadooptest76.bj 节点2 10.11.32.77 hadooptest77.bj 节点3 10.11.32.81 hadooptest81.bj java版本要求:最低1.7 下载地址: curl -L -O https://downloa...

2017-04-26 18:19:49

阅读数:556

评论数:0

ElasticSearch系列08:python操作Elasticsearch

Elasticsearch客户端列表:https://www.elastic.co/guide/en/elasticsearch/client/index.html Python API:https://www.elastic.co/guide/en/elasticsearch/client/py...

2017-04-26 16:49:36

阅读数:616

评论数:0

Elasticsearch系列07:数据迁移与备份

虽然ES提供了replicas shards的机制来保证数据的完整性不会因为几个节点的奔溃而被破坏,但是定期的数据备份以备不时之需依然重要。此外,通过备份与恢复也可实现数据在不同集群间的迁移(直接复制data目录下的索引文件的做法我尝试过,但没有成功)。 备份的方式在官方文档里有清楚的交代:先创...

2017-04-26 16:05:21

阅读数:395

评论数:0

ElasticSearch系列06:ES优化建议

一、ES优化 调大系统的"最大打开文件数",建议32K甚至是64K   ulimit -a (查看)   ulimit -n 32000(设置) 修改配置文件调整ES的JVM内存大小   1:修改bin/elasticsearch.in.sh中ES_MIN_MEM和E...

2017-04-26 15:59:21

阅读数:307

评论数:0

Elasticsearch系列05:Elasticsearch集群问题处理

问题一:Elasticsearch集群脑裂问题 所谓脑裂问题(类似于精神分裂),就是同一个集群中的不同节点,对于集群的状态有了不一样的理解。 今天,Elasticsearch集群出现了查询极端缓慢的情况,通过以下命令查看集群状态: curl -XGET 'es-1:9200/_clust...

2017-04-26 15:54:27

阅读数:169

评论数:0

ElasticSearch系列04:核心概念

一、ES配置文件详解 elasticsearch.yml  es的基本配置文件  详见elasticsearch中文.yml logging.yml  日志配置文件,es也是使用log4j来记录日志的,所以logging.yml里的设置按普通log4j配置来设置就行了。 二、ES中的核心概念 c...

2017-04-26 15:51:01

阅读数:129

评论数:0

ElasticSearch系列03:elasticsearch.yml(中文配置详解)

一、基本配置 elasticsearch的config文件夹里面有两个配置文 件:elasticsearch.yml和logging.yml,第一个是es的基本配置文件,第二个是日志配置文件,es也是使用log4j来记录日 志的,所以logging.yml里的设置按普通log4j配置文件来设置就行...

2017-04-26 15:20:52

阅读数:322

评论数:0

ElasticSearch系列02:操作实践

在Elasticsearch中,文档归属于一种类型(type),而这些类型存在于索引(index)中,我们可以画一些简单的对比图来类比传统关系型数据库: Relational DB -> Databases -> Tables -> Rows -> Columns Elas...

2017-04-26 15:10:40

阅读数:360

评论数:0

Elasticsearch系列01:基础教程

基础概念     Elasticsearch有几个核心概念。从一开始理解这些概念会对整个学习过程有莫大的帮助。     接近实时(NRT)         Elasticsearch是一个接近实时的搜索平台。这意味着,从索引一个文档直到这个文档能够被搜索到有一个轻微的延迟(通常是1秒)。  ...

2017-04-26 11:22:04

阅读数:415

评论数:0

Kubernetes系列07:Controller Manager原理分析

Controller Manager作为集群内部的管理控制中心,负责集群内的Node、Pod副本、服务端点(Endpoint)、命名空间(Namespace)、服务账号(ServiceAccount)、资源定额(ResourceQuota)等的管理,当某个Node意外down机时,Controll...

2017-04-25 16:36:16

阅读数:525

评论数:0

数据分析中的缺失值处理

没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一。当缺失比例很小时,可直接对缺失记录进行舍弃或进行手工处理。但在实际数据中,往往缺失数据占有相当的比重。这时如果手工处理非常低效,如果舍弃缺失记录,则会丢失大量信息,使不完全观测数据与完全观测数据间产生系统差异,...

2017-04-25 11:43:48

阅读数:567

评论数:0

天池历届大赛答辩PPT及视频

1、阿里移动推荐算法:答辩视频:https://space.dingtalk.com/c/gQHOEnXdXw  2、资金流入流出预测:答辩视频:https://space.dingtalk.com/c/gQHOEnXi6w  3、阿里移动推荐&资金流入流出预测答辩PPT下载: http...

2017-04-25 10:33:53

阅读数:3425

评论数:0

Kubernetes系列06:Kubernetes API Server原理分析

总体来看,kubernetes API Server 的核心功能是提供了各类资源对象的增删改查及watch等HTTP Rest接口,成为集群内各个功能模块之间数据交互和通信的中心枢纽,是整个系统的数据总线和数据中心。除此之外,它还有以下一些功能特性。 (1)是集群管理的API入口 (2)是资源...

2017-04-24 18:09:40

阅读数:2388

评论数:0

大数据分析师养成记

以下是一位在数据分析领域打滚了N年后,写下的一些体会,一定能给新人一些借鉴的地方。(总结的不错,大家可以借鉴学习哦) 一、数据分析师有哪些要求?   1、理论要求及对数字的敏感性,包括统计知识、市场研究、模型原理等。   2、工具使用,包括挖掘工具、数据库、常用办公软件(excel、PP...

2017-04-24 11:12:33

阅读数:824

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭