自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

艾文

专注NLP/推荐系统/数据挖掘

  • 博客(55)
  • 资源 (16)
  • 收藏
  • 关注

原创 ES008-Elasticsearch+hbase整合

1:设计索引库的settings信息的mappings信息,并把这些配置信息保存到一个配置文件中。1.1 vi articles.json{ "settings":{ "number_of_shards":3, "number_of_replicas":1 }, "mappings":{ "article

2015-10-13 10:36:51 9624 2

原创 ES007-Elasticsearch中文分词集成

1、elasticsearch官方只提供smartcn这个中文分词插件,效果不是很好2、引入分词器前命令行下测试curl 'http://localhost:9200/jf/_analyze?pretty=true' -d '{"text":"京东商城"}'现象是按照每个单词进行要给分词3、集成IK分词工具3.1:下载es的IK插件https://githu

2015-10-13 10:32:36 1466

原创 ES006-Elasticsearch-JAVA客户端

添加maven依赖 org.elasticsearch elasticsearch 1.4.4 1、连接到es集群1.1 通过启动内嵌集群节点1.2 如果只想做单元测试,不想把节点加入集群,就要启动一个本地的es。它需要把节点的local参数设置为trueNode node = NodeBuilder.nodeBuilder().local

2015-10-13 10:30:01 3757 1

原创 ES005-Elasticsearch核心概念

1、cluster***1.1 代表一个集群,集群中有多个节点,其中有一个为主节点,这个主节点是可以通过选举产生的,主从节点是对于集群内部来说的。es的一个概念就是去中心化,字面上理解就是无中心节点,这是对于集群外部来说的,因为从外部来看es集群,在逻辑上是个整体,你与任何一个节点的通信和与整个es集群通信是等价的。1.2 主节点的职责是负责管理集群状态,包括管理分片的状态和副本的状态,以

2015-10-13 10:27:12 974

原创 ES004-Elasticsearch插件的介绍

1、站点插件1.1 BigDesk Plugin (作者 Lukáš Vlček) 简介:监控es状态的插件,推荐!1.2 Elasticsearch Head Plugin (作者 Ben Birch)简介:很方便对es进行各种操作的客户端。1.3 Paramedic Plugin (作者 Karel Minařík)简介:es监控插件1.4

2015-10-13 10:25:49 1478

原创 ES003-CURL使用

1、CURL简介简单认为是可以在命令行下访问url的一个工具,curl是利用URL语法在命令行方式下工作的开源文件传输工具,使用curl可以简单实现常见的get/post请求。curl  后面跟的参数:     -x  指定http请求的方法     HEAD  GET POST  PUT DELETE     -d   指定要传输的数据2、CURL创建

2015-10-13 10:24:25 1035

原创 ES002-Elasticsearch环境安装

1、Elasticsearch安装java版本要求:最低1.7下载地址:     https://www.elastic.co/downloads/past-releases/1-4-4启动     cd /usr/local/elasticsearch-1.4.4     ./bin/elasticsearch     bin/elasticsearch -d

2015-10-13 10:23:24 1116

原创 ES001-Elasticsearch入门

1、ES是什么?Elasticsearch是基于Lucence实时 分布式 搜索和分析 引擎。在云计算中,可达到实时搜索。基于RESTful接口。例如: 普通请求是...get?a=1rest请求....get/a/1Elasticsearch的用户GitHub,Wikipedia,ebay2、ES VS SOLR2.

2015-10-13 10:22:02 4670

原创 020Java操作redis集群

redis3.0 集群搭建完成后,JAVA代码是如何操作Redis集群的呢?下面我们通过JAVA代码演示如何操作Redis集群package redis;import java.util.HashSet;import java.util.Set;import redis.clients.jedis.HostAndPort;import redis.clients.jedis.Jed

2015-10-13 10:13:45 2754

原创 019redis3.0集群删除节点

1:如果删除的节点是主节点,这里我们删除192.168.2.20:7006节点,这个节点有1000个哈希槽首先要把节点中的哈希槽转移到其他节点中,执行下面的命令cd /usr/local/redis3.0/src./redis-trib.rb reshard 192.168.2.20:7000系统会提示我们要移动多少哈希槽,这里移动1000个

2015-10-13 10:11:39 633

原创 018redis3.0集群添加节点

1:首先把需要添加的节点启动cd /usr/local/cluster/mkdir 7006cp /usr/local/cluster/redis.conf  /usr/local/cluster/7006/cd /usr/local/cluster/7006/vi redis.conf##修改redis.conf中的port参数的值为7006redis

2015-10-13 10:10:25 622

原创 017redis3.0集群部署

要让集群正常工作至少需要 3个主节点,在这里我们要创建 6个redis 节点,其中三个为主节点,三个为从节点,对应的 redis节点的ip 和端口对应关系如下192.168.2.20:7000192.168.2.20:7001192.168.2.20:7002192.168.2.20:7003192.168.2.20:7004192.168.2.20:7

2015-10-13 10:06:12 589

原创 016redis3.0集群简介

一、基本概念1、redis集群是一个可以在多个节点之间进行数据共享的设施。redis集群提供了以下两个好处1.1 将数据自动切分(split)到多个节点1.2 当集群中的某一个节点故障时,redis还可以继续处理客户端的请求。2、一个 Redis 集群包含 16384 个哈希槽(hash slot),数据库中的每个数据都属于这16384个哈希槽中的一个。集群使用公式 CRC

2015-10-13 10:02:54 521

原创 015redis主从复制

1、redis的复制功能是支持多个数据库之间的数据同步。一类是主数据库(master)一类是从数据库(slave),主数据库可以进行读写操作,当发生写操作的时候自动将数据同步到从数据库,而从数据库一般是只读的,并接收主数据库同步过来的数据,一个主数据库可以有多个从数据库,而一个从数据库只能有一个主数据库。2、修改配置文件redis.conf,只修改从数据库slaveof ip

2015-10-13 09:59:10 410

原创 014redis的优化&redis工具的使用

一、redis优化1、精简键名和键值键名:尽量精简,但是也不能单纯为了节约空间而使用不易理解的键名。键值:对于键值的数量固定的话可以使用0和1这样的数字来表示,(例如:male/female、right/wrong)2、当业务场景不需要数据持久化时,关闭所有的持久化方式可以获得最佳的性能内部编码优化(了解)redis为每种数据类型都提供了两种内部编码方式,在不同的情

2015-10-13 09:56:02 500

原创 013redis持久化

redis支持两种方式的持久化,可以单独使用或者结合起来使用。第一种:RDB方式(redis默认的持久化方式)第二种:AOF方式

2015-10-13 09:53:26 447

原创 012redis管道(pipeline)

使用redis管道(pipeline)模式提高数据的插入速度

2015-10-13 09:52:00 898

原创 011 redis的“发布/订阅”模式&redis的排队

一、redis的发布/订阅发布:publish     例:publish channel message订阅:subscribe     例:subscribe channel [.....]取消订阅:unsubscribe     例:unsubscribe [channel]按照规则订阅:psubscribe     例:psubscribe ch

2015-10-13 09:50:22 1434

原创 010redis中数据的排序(sort)

redis中的sort命令可以对list,set,sorted sest 集合中的元素进行排序

2015-10-12 18:04:25 1213

原创 009redis的事务(transaction)

redis的事务(transaction)基本概念以及原理介绍

2015-10-12 18:03:24 623 1

原创 008redis中键的生存时间(expire)

redis中键的生存时间在大型网站的应用: 限时的优惠活动、 网站数据缓存、 限制网站访客访问频率

2015-10-12 18:01:44 6206

原创 008Java操作redis

本章节主要介绍redis三种方式访问redis:单机单连接方式、单机连接池方式、多机分布式+连接池方式

2015-10-12 17:59:31 605

原创 007redis的hash类型

hash类型主要包括以下内容:hset/hget/hmset/hmget/hgetall(hsetnx)hexists,判断键中的属性是否存在hincrby(hash类型没有hincr命令)hdelhkeys/hvalshlen(获取键中包含多少个字段)

2015-10-12 17:57:35 513

原创 006redis的string类型

介绍redis的string类型: set/setnx命令格式、mset/mget命令格式、incr/decr/incrby/decrby/incrbyfloat命令格式、append命令格式、strlen命令格式

2015-10-12 17:56:28 390

原创 005redis的数据类型

介绍redis的基本类型: string类型、hash类型、list类型、set类型、sorted set类型的使用

2015-10-12 17:55:06 451

原创 004redis的基本命令+help的用法

本章节主要介绍redis的命令: keys命令、exists 命令、del 命令、help命令的使用

2015-10-12 17:54:01 2681

原创 003redis的多数据库的特性

redis默认支持16个数据库

2015-10-12 17:52:44 610

原创 002redis安装部署(单机)

本章节重点介绍redis的单机安装以及redis的 redis-cli 命令使用、Redisclient 包下载

2015-10-12 17:50:42 505

原创 001redis简介

本章节主要介绍redis基本概念、redis的特点、redis应用场景

2015-10-12 17:47:09 545

原创 006 用户行为PV&UV统计数据

mapreduce离线分析加强日志后,然后通过hive或者impala分析数据。本章节主要分析pv和uv数据,利用hive整合hbase,通过hive分析hbase中的数据

2015-10-12 17:33:16 12114 2

原创 Impala006-impala 数据处理&impala 和 HBase整合&JDBC方式访问Impala

impala 数据处理、impala 和 HBase整合、JDBC方式访问Impala

2015-10-12 16:19:21 1547

原创 Impala005-Impala SQL操作内部表和外部表

Impala操作外部表和内部表。一些基本操作同Hive的命令一样

2015-10-12 16:15:46 7160

原创 Impala004-Impala管理

重点介绍Impala的监控、Impala存储和分区、 Impala分区维护

2015-10-12 16:14:34 918

原创 Impala003-Impala shell

本章节重点介绍Impala的一些常用的命令,主要是如果Impala如果替代Hive左统计分析

2015-10-12 16:02:17 2930

原创 Impala002-Impala架构

重点介绍Impala的架构中涉及的角色Impala StateStore、Impala Catalog Server、Impala Daemon

2015-10-12 15:59:57 800

原创 Impala001-Impala概述

Impala 是Cloudera公司主导开发并开源。基于Hive内存计算,兼顾数据仓库,具有实时性、批处理、多并发等优点。是使用CDH的首选PB级大数据实时查询分析引擎Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL。除了像Hive使用相同的统一存储平台,Impala也使用相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax)。Impala还提供了一个熟悉的面向批量或实时查询和统一平台

2015-10-12 15:56:09 742

原创 015-Storm计算网站UV(去重计算模式)

通过Storm统计uv和pv,其中uv去重,解决高并发多线程下uv和pv统计出错问题。

2015-10-12 15:42:53 6636 5

原创 014-案例开发.Storm计算网站PV

高并发多线程下采用storm统计网站的pv数据

2015-10-12 12:54:09 3507

原创 013-通过trident实现单词计数功能

trident是对storm原生API的高级封装,可以通过tridient方便实现负责的业务。

2015-10-09 12:22:22 1001

原创 012-storm的drpc通信

storm的drpc通信

2015-10-09 12:20:41 1030

pytorch-flask-api.zip

本章节中,我们将使用Flask 部署一个Pytorch模型,并未模型预测提供一个REST API 接口。下面,我们部署一个预训练好的模型DenseNet 121,该模型用于检测图片

2019-08-26

word2vec-sentiments-IMDB-Data.zip

词向量在NLP被广泛应用,通过引入Doc2Vec,不仅可以对单个词进行词向量表示,而且可以对整个句子或文章进行表示。 想象一下,能够使用固定长度的向量表示整个句子,然后我们可以使用标准的分类算法去分类。是一件很神奇的事情。 本章以Word2Vec 为基础,使用Doc2Vec 来做些情感分析的任务问题。 IMDB预料 进行分类(积极or消极),可以提供的数据集

2019-07-26

tachyon 介绍

Tachyon是以内存为中心的分布式文件系统,能够为集群计算框架(如:Spark,MapReduce等)提供内存级速度的跨集群文件共享服务。本文档让你快速入门

2016-02-18

CDH的安装和使用

开源的hadoop生态圈的安装和维护很难,通过cloudera公司的cdh来管理,但是对于CDH的安装对于初学者总会存在一定的困难,本文档详细介绍CDH的离线安装和使用

2015-12-08

solr搜索引擎-课程文件培训

本文档包括以下内容,通过下载该内容可以让你掌握solr学习的入门和适应基本开发。 1.学员操作手册-Solr搜索自动补全 2.solr实训教程.doc 3.积分商城基于Solr的搜索引擎优化.pdf 4.基于Solr的搜索引擎优化讲义.pdf 5.课程大纲-基于搜索引擎培训.doc 6.学员操作手册-Solr数据库插入索引.doc 7.学员操作手册-部署solr服务.doc

2014-02-20

solr企业级搜索引擎准备阶段

Apache Solr 是一个开源的搜索服务器,Solr 使用 Java 语言开发,主要基于 HTTP 和 Apache Lucene 实现. Solr 运行在Java的Servlet容器上,诸如: Tomcat or Jetty。 Solr 是一个免费的开源搜索引擎免费软件。 Solr 是一个基于Lucence的开源项目,可以通过下面网址下载。 http://lucene.apache.org/solr/ http://archive.apache.org/dist/lucene/solr/

2013-11-19

UML工具培训

1. 初步认识rational rose 2. rational rose 在项目中应用 3. 通过uml介绍瀑布模型和RUP模型。

2013-11-19

solr搜索自动补全

类似京东,淘宝搜索自动补全功能。通过suggest.js插件来完成功能开发。

2013-11-19

Solr数据库插入(全量和增量)索引

Solr数据库插入(全量和增量)索引,全量一般用于第一次创建索引情况,批量一般更新数据部分创建索引。

2013-11-19

积分商城基于Solr搜索引擎PPT

1. 积分商城现状 2. 搜索领域知识、原理、应用 3. Solr简介、部署及中文分词 4. SolrJ项目中应用 5. Solr分布式应用 6. 大型网站架构分析

2013-11-19

UML视图的名称

UML视图的图片,通过该图片可以很好的掌握UML视图的画法

2013-03-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除