- 博客(37)
- 资源 (3)
- 收藏
- 关注
转载 关联规则推荐算法的原理及实现
关联规则用来发现数据间潜在的关联,最典型的应用是电商网站的购物车分析。本文将通过一个简单的例子来说明关联规则中各个术语的含义以及具体的计算方法。这是一些用户的购物数据,uid是用户的ID,后面是每个用户具体购买的商品名称,我们使用字母进行标识。下面我们将使用关联规则对这些数据进行分析,挖掘不同商品间的联系。首先将前面的一维的购物车流水数据转换为二维的列表。然后在这个基础上计算不同商
2017-04-28 14:34:38 3601
原创 redis动态增加内存(不重启)
在redis的使用过程中,有时候需要修改redis的配置,如在业务运行的情况下,内存不够怎么办,这时要么赶紧删除无用的内存,要么扩展内存。如果有无用的内容可删除那么所有问题都已经解决。如果内容都是重要的,那只能选择扩展内存。说到扩展内存,redis为我们提供了一个动态调整的命令。CONFIG SET (官网https://redis.io/commands/config-set)CONFI
2017-04-27 19:22:00 9809
原创 kMeans算法(K均值聚类算法)
机器学习中有两类的大问题,一个是分类,一个是聚类。分类是根据一些给定的已知类别标号的样本,训练某种学习机器,使它能够对未知类别的样本进行分类。这属于supervised learning(监督学习)。而聚类指事先并不知道任何样本的类别标号,希望通过某种算法来把一组未知类别的样本划分成若干类别,这在机器学习中被称作 unsupervised learning (无监督学习)。在本文中,我们关注其中一
2017-04-27 16:33:49 1423
原创 kafka集群下线broker节点实践方法
kafka集群broker 0(10.11.32.76 hadooptest76.bj)broker 1(10.11.32.77 hadooptest77.bj)broker 2(10.11.32.81 hadooptest81.bj)操作任务:下线broker 2节点,确保业务不中断,数据不丢失。一、先决条件,kafka启动必须加上JMX_PORT=
2017-04-27 16:20:48 9179
原创 zookeeper集群扩容/下线节点实践
环境:zookeeper版本 3.4.6jdk版本 1.7.0_8010.111.1.29 zk110.111.1.44 zk210.111.1.45 zk310.111.1.46 zk410.111.1.47 zk5一、zookeeper集群扩容(3 -> 5)3节点的配置并检查状态配置:tickTime=2000initLimit=10
2017-04-27 16:15:26 8946
转载 ElasticSearch系列10:分布式集群的特性
在开始我们提到Elasticsearch可以扩展到上百(甚至上千)的服务器来处理PB级的数据。然而我们的教程只是给出了一些使用Elasticsearch的例子,并未涉及相关机制。Elasticsearch为分布式而生,而且它的设计隐藏了分布式本身的复杂性。Elasticsearch在分布式概念上做了很大程度上的透明化,在教程中你不需要知道任何关于分布式系统、分片、集群发现或者其他大量的分布
2017-04-26 19:04:35 702
原创 ElasticSearch系列09:ElasticSearch2.4集群搭建
环境:节点1 10.11.32.76 hadooptest76.bj节点2 10.11.32.77 hadooptest77.bj节点3 10.11.32.81 hadooptest81.bjjava版本要求:最低1.7下载地址:curl -L -O https://download.elastic.co/elasticsearch/release/org/elas
2017-04-26 18:19:49 1029
原创 ElasticSearch系列08:python操作Elasticsearch
Elasticsearch客户端列表:https://www.elastic.co/guide/en/elasticsearch/client/index.htmlPython API:https://www.elastic.co/guide/en/elasticsearch/client/python-api/current/index.html参考文档:http://elasticse
2017-04-26 16:49:36 1122
转载 Elasticsearch系列07:数据迁移与备份
虽然ES提供了replicas shards的机制来保证数据的完整性不会因为几个节点的奔溃而被破坏,但是定期的数据备份以备不时之需依然重要。此外,通过备份与恢复也可实现数据在不同集群间的迁移(直接复制data目录下的索引文件的做法我尝试过,但没有成功)。备份的方式在官方文档里有清楚的交代:先创建仓库(repository),再往仓库里添加一个快照(snapshot),查看备份状态,搞定。虽
2017-04-26 16:05:21 963
原创 ElasticSearch系列06:ES优化建议
一、ES优化调大系统的"最大打开文件数",建议32K甚至是64K ulimit -a (查看) ulimit -n 32000(设置)修改配置文件调整ES的JVM内存大小 1:修改bin/elasticsearch.in.sh中ES_MIN_MEM和ES_MAX_MEM的大小,建议设置一样大,避免频繁的分配内存,根据服务器内存大小,一般分配60%左右(默认256M)
2017-04-26 15:59:21 968
转载 Elasticsearch系列05:Elasticsearch集群问题处理
问题一:Elasticsearch集群脑裂问题所谓脑裂问题(类似于精神分裂),就是同一个集群中的不同节点,对于集群的状态有了不一样的理解。今天,Elasticsearch集群出现了查询极端缓慢的情况,通过以下命令查看集群状态:curl -XGET 'es-1:9200/_cluster/health'发现,集群的总体状态是red,本来9个节点的集群,在结果中只显示了4个;但
2017-04-26 15:54:27 377
原创 ElasticSearch系列04:核心概念
一、ES配置文件详解elasticsearch.yml es的基本配置文件 详见elasticsearch中文.ymllogging.yml 日志配置文件,es也是使用log4j来记录日志的,所以logging.yml里的设置按普通log4j配置来设置就行了。二、ES中的核心概念cluster***代表一个集群,集群中有多个节点,其中有一个为主节点,这个主节点是
2017-04-26 15:51:01 486
原创 ElasticSearch系列03:elasticsearch.yml(中文配置详解)
一、基本配置elasticsearch的config文件夹里面有两个配置文 件:elasticsearch.yml和logging.yml,第一个是es的基本配置文件,第二个是日志配置文件,es也是使用log4j来记录日 志的,所以logging.yml里的设置按普通log4j配置文件来设置就行了。下面主要讲解下elasticsearch.yml这个文件中可配置的东西。cluster.na
2017-04-26 15:20:52 889
原创 ElasticSearch系列02:操作实践
在Elasticsearch中,文档归属于一种类型(type),而这些类型存在于索引(index)中,我们可以画一些简单的对比图来类比传统关系型数据库:Relational DB -> Databases -> Tables -> Rows -> ColumnsElasticsearch -> Indices -> Types -> Documents -> FieldsEl
2017-04-26 15:10:40 627
转载 Elasticsearch系列01:基础教程
基础概念 Elasticsearch有几个核心概念。从一开始理解这些概念会对整个学习过程有莫大的帮助。 接近实时(NRT) Elasticsearch是一个接近实时的搜索平台。这意味着,从索引一个文档直到这个文档能够被搜索到有一个轻微的延迟(通常是1秒)。 集群(cluster) 一个集群就是由一个或多
2017-04-26 11:22:04 777
原创 Kubernetes系列07:Controller Manager原理分析
Controller Manager作为集群内部的管理控制中心,负责集群内的Node、Pod副本、服务端点(Endpoint)、命名空间(Namespace)、服务账号(ServiceAccount)、资源定额(ResourceQuota)等的管理,当某个Node意外down机时,Controller Manager会及时发现此故障并执行自动化修复流程,确保集群始终处于预期的工作状态。Cont
2017-04-25 16:36:16 1407
转载 数据分析中的缺失值处理
没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一。当缺失比例很小时,可直接对缺失记录进行舍弃或进行手工处理。但在实际数据中,往往缺失数据占有相当的比重。这时如果手工处理非常低效,如果舍弃缺失记录,则会丢失大量信息,使不完全观测数据与完全观测数据间产生系统差异,对这样的数据进行分析,你很可能会得出错误的结论。造成数据缺失的原因现实世界中的
2017-04-25 11:43:48 1773
转载 天池历届大赛答辩PPT及视频
1、阿里移动推荐算法:答辩视频:https://space.dingtalk.com/c/gQHOEnXdXw 2、资金流入流出预测:答辩视频:https://space.dingtalk.com/c/gQHOEnXi6w 3、阿里移动推荐&资金流入流出预测答辩PPT下载: https://tianchi.shuju.aliyun.com/mini/reply.htm?spm=5176
2017-04-25 10:33:53 6689 2
原创 Kubernetes系列06:Kubernetes API Server原理分析
总体来看,kubernetes API Server 的核心功能是提供了各类资源对象的增删改查及watch等HTTP Rest接口,成为集群内各个功能模块之间数据交互和通信的中心枢纽,是整个系统的数据总线和数据中心。除此之外,它还有以下一些功能特性。(1)是集群管理的API入口(2)是资源配额控制的入口(3)提供了完备的集群安全机制1.kubernetes API Server
2017-04-24 18:09:40 3830
转载 大数据分析师养成记
以下是一位在数据分析领域打滚了N年后,写下的一些体会,一定能给新人一些借鉴的地方。(总结的不错,大家可以借鉴学习哦)一、数据分析师有哪些要求? 1、理论要求及对数字的敏感性,包括统计知识、市场研究、模型原理等。 2、工具使用,包括挖掘工具、数据库、常用办公软件(excel、PPT、word、脑图)等。 3、业务理解能力和对商业的敏感性。对商业及产品要有深刻的理解,因为数据
2017-04-24 11:12:33 1235
转载 机器学习的八个步骤
上个月,Kaggle 联合创始人兼 CTO Ben Hamner 在 Quora 上回答了有关 Kaggle、机器学习和人工智能的一系列问题。对于 Hamner 给出的《机器学习的八个步骤》的建议,Kaggle Team 重新整理并做了核心摘要。现在学习机器学习和人工智能比以往任何时候都更好。近年来,这一领域飞速发展并硕果累累。专家们开源了各种高质量的软件工具和库,新的线上资源和博文也层
2017-04-24 11:09:55 5326 1
原创 Kubernetes系列05:深入掌握Service
Service是kubernetes最核心的概念,通过创建Service,可以为一组具有相同功能的容器应用提供一个统一的入口地址,并且将请求进行负载分发到后端的各个容器应用上。本节对Service的使用进行说明,包括Service的负载均衡、外网访问、DNS服务的搭建、Ingress7层路由机制等1.Service定义详解yaml格式的Service定义文件的完整内容:apiV
2017-04-21 18:27:42 16664 1
转载 Hive指定查询输出分隔符
业务场景做数据分析的时候,经常会用到Hive -e "sql" > xxx.txt或者最原始的hive命令行来获得查询结果,然后再将查询结果放到Excel等工具中,但是如果查询的字段太多,这时候将查询结果放到Excel会经常会碰到错位问题,很是头疼.解决方案一:借助linux管道替换输出分隔符样例如下:# 方法一:sedhive -e "select * from
2017-04-21 14:40:26 3887
原创 Kubernetes系列04:深入掌握Pod
本节将对kubernetes如何发布和管理应用进行说明和示例,主要包括Pod和容器的使用、Pod的控制和调度、应用配置管理等内容。1.Pod定义详解yaml格式的Pod定义文件的完整内容:apiVersion: v1kind: Podmetadata: name: string namespace: string labels: - name:
2017-04-20 19:55:40 3782 3
原创 关于hadoop hdfs中Non DFS Used占用很大的问题分析处理
今天帮一个朋友处理hdfs上Non DFS Used占用很大的问题,从hadoop UI界面看到的节点信息存储容量:Capacity| Used| Non DFS Used| Remaining4.46T| 1.69T| 1.46T| 1.31TNon DFS Used怎么有这么大,于是先看看dfs.datanode.du.reserved配置,10G很正常,那去看看dfs.dat
2017-04-20 14:23:52 6540
原创 Kubernetes系列03:Guestbook示例:Hello World详解
redis-master:用于前端web应用进行“写”留言操作的Redis服务,其中已经保存了一条内容为“hello world”的留言;guestbook-redis-slave:用于前端web应用进行“读”留言的redis服务,并与Redis-master的数据保持同步;guestbook-php-frontend:PHP web服务,在网页上展示留言的内容,也提供一个文本输入框供访客
2017-04-18 19:45:39 1835
原创 Kubernetes系列02:Kubernetes配置及参数说明
2.1 kubernetes安装与配置2.1.1安装kubernetesCPU和内存:Master至少1core和2G内存Node至少1core和2G内存Linix操作系统:基于X86_64架构的各种Linux发行版本,Red Hat、CentOS、Fedora、Ubuntu等,Kernel版本要求在3.10及以上推荐:CentOS7、Red Hat Lin
2017-04-18 16:54:05 9989
原创 hadoop Corrupt blocks或Missing replicas问题处理方法
hadoop集群出现硬盘物理故障导致部分块损坏,出现Corrupt blocks或Missing replicas问题,下面说下如何处理:1、查看状态:hdfs fsck /需要等待一些时间.........Status: CORRUPT Total size: 110507203084214 B Total dirs: 258577 Total f
2017-04-18 11:27:52 10971 3
原创 Kubernetes系列01:Kubernetes入门
最近在学习Kubernetes,将学习到的内容整理成博文,便于日后的后顾学习,也共享给网上的朋友,共同学习。学习这个系列之前,需要有Docker的知识,建议大家在网上学习下掌握些基础。什么是Kubernetes?Kubernetes是Google开源的容器集群管理系统,实现基于Docker构建容器,利用Kubernetes能很方面管理多台Docker主机中的容器。主要功
2017-04-17 20:25:22 6629 6
原创 hadoop跨集群之间迁移hive数据
Hive跨集群迁移数据工作是会出现的事情, 其中涉及到数据迁移, metastore迁移, hive版本升级等。1. 迁移hdfs数据至新集群hadoop distcp -skipcrccheck -update hdfs://xxx.xxx.xxx.xxx:8020/user/risk hdfs://xxx.xxx.xxx.xxx:8020/user/risk-skipcrc
2017-04-13 11:51:04 14255 7
原创 ambari2.1离线安装HDP2.1实践教程
说明:此文档是讲解ambari离线安装HDP的方法,这里的离线安装说的是ambari组件、HDP组件这些大的文件从网站上下载好避免网络不好中间中断,但是有些小文件如PostgreSQL、系统初始化yum更新、mysql之类的包也需要网络,当然可以本地yum源,只是麻烦些,建议还是需要服务器可以访问外网。在线安装可参考:http://blog.csdn.net/levy_cui/articl
2017-04-12 11:30:44 734
转载 使用sklearn优雅地进行数据挖掘
目录1 使用sklearn进行数据挖掘 1.1 数据挖掘的步骤 1.2 数据初貌 1.3 关键技术2 并行处理 2.1 整体并行处理 2.2 部分并行处理3 流水线处理4 自动化调参5 持久化6 回顾7 总结8 参考资料1 使用sklearn进行数据挖掘1.1 数据挖掘的步骤 数据挖掘通常包括数据采集,数据分析,特
2017-04-06 18:39:15 1239
转载 使用sklearn做单机特征工程
目录1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3 特征选择 3.1 Filter 3.1.1 方差选择法
2017-04-06 18:32:18 438
转载 使用Python进行描述性统计
目录1 描述性统计是什么?2 使用NumPy和SciPy进行数值分析 2.1 基本概念 2.2 中心位置(均值、中位数、众数) 2.3 发散程度(极差,方差、标准差、变异系数) 2.4 偏差程度(z-分数) 2.5 相关程度(协方差,相关系数) 2.6 回顾3 使用Matplotlib进行图分析 3.1 基本概念 3.2 频数分析
2017-04-06 18:13:43 9539
原创 Spark朴素贝叶斯(naiveBayes)实践
介绍Byesian算法是统计学的分类方法,它是一种利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯分类算法可以与决策树和神经网络分类算法想媲美,该算法能运用到大型数据库中,且方法简单,分类准确率高,速度快,这个算法是从贝叶斯定理的基础上发展而来的,贝叶斯定理假设不同属性值之间是不相关联的。但是现实说中的很多时候,这种假设是不成立的,从而导致该算法的准确性会有所下降。运用场景
2017-04-01 17:43:03 4248
原创 朴素贝叶斯分类算法理解及文本分类器实现
贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文作为分类算法的第一篇,将首先介绍分类问题,对分类问题进行一个正式的定义。然后,介绍贝叶斯分类算法的基础——贝叶斯定理。最后,通过实例讨论贝叶斯分类中最简单的一种:朴素贝叶斯分类。分类问题综述对于分类问题,其实谁都不会陌生,说我们每个人每天都在执行分类操作一点都不夸张,只是我们没有意识到罢了。例
2017-04-01 17:04:45 7239
原创 hadoop streaming两个数据文件实现join合并操作
hadoop做数据处理,大都是对集合进行操作,因此将数据文件与另一个数据文件进行join的操作需求非常常见。下面将使用一个例子让新入门的朋友掌握编写方法:[hdfs@server1]$ more clean_item_new100002303,3368100002865,11991100003592,7995100004955,7033100006838,12630
2017-04-01 16:26:32 5369
Python深度学习(Deep Learning With Python中文版)
2018-09-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人