bigdata
文章平均质量分 65
马立弘
一步一步往前走......
展开
-
在内存中判断海量数据的唯一性
在内存中判断海量数据的唯一性通过布隆过滤算法来实现了假定我们存储一亿个电子邮件地址,我们先建立一个十六亿二进制(比特),即两亿字节的向量,然后将这十六亿个二进制位全部设置为零。对于每一个电子邮件地址 X,我们用八个不同的随机数产生器(F1,F2, ...,F8) 产生八个信息指纹(f1, f2, ..., f8)。再用一个随机数产生器 G 把这八个信息指纹映射到 1 到十六亿中的八个自然数 g1,原创 2016-11-07 16:34:45 · 775 阅读 · 0 评论 -
elasticsearch系统分析器及自定义分析器
一、系统自带的分析器: (1)standard 分析器 standard 分析器是用于全文字段的默认分析器。 它考虑了以下几点: standard 分词器,在词层级上分割输入的文本。 standard 标记过滤器,被设计用来整理分词器触发的所有标记(但是目前什么都没做)。 lowercase 标记过滤器,将所有标记转换为小写。 stop 标记过滤器,删除所有可能会造成搜索歧义的停用词,原创 2017-02-20 22:03:35 · 2339 阅读 · 0 评论 -
windows下的Elasticsearch使用
一、基础入门 1.ElasticSearch概念入门2.elasticsearch5.0.0在windows中的安装方法3.批量同步数据库到elasticsearch4.elasticSearch系统分析器及自定义分析器5.elasticSearch中文分词ik分析器二、进阶1.elasticsearch索引管理2.elasticsearch中的字段类型/mapping参数/定义表结构3.结构化查原创 2016-11-17 09:48:20 · 2990 阅读 · 0 评论 -
elasticsearch5.0.0在windows中的安装方法
elasticsearch5.0.2在windows中的安装方法一、安装elasticsearch下载压缩包并解压https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-5.0.2.zipbin\elasticsearch.bat注:默认至少2G的内存,如果电脑内存不够,编辑config/jvm.options中原创 2016-12-03 15:14:14 · 3450 阅读 · 1 评论 -
elasticsearch的综合测试案例
–查看指定数据库testindex中所有type的结构 GET /testindex/_mapping GET /testindex/_settings,_mappings–删除索引DELETE /testindex–添加索引PUT /testindex{ "settings": { "number_of_shards" : 3, "number_of原创 2017-02-20 16:46:42 · 765 阅读 · 0 评论 -
elasticsearch在C#中的使用
elsticsearch中安装了x-pack后,查询时就需要用户名和密码了。 无账号密码,不可访问 curl http://192.168.0.2:9200/testindex/_count?pretty=true Authentication Required访问basic认证的页面 (1)通过user选项带上账号密码,返回正常数据 curl –user elastic:changeme原创 2017-02-18 22:10:27 · 5548 阅读 · 0 评论 -
elasticsearch索引管理
–索引管理系统默认会自动添加数据库和表, 如果要手动添加,需要在配置文件config/elasticsearch.yml中添加一行: action.auto_create_index: false–创建只有一个主分片,没有复制分片的索引。 (注:在索引创建后,主分片个数不能修改) PUT /testindex { “settings”: { “number_of原创 2017-02-18 15:14:54 · 975 阅读 · 0 评论 -
Elasticsearch集群管理篇
Elasticsearch集群管理篇Elasticsearch出现问题,最高效的解决方案是第一手资料ES英文官网文档,其次是ES英文论坛、ES github issues,再次是stackoverflow等英文论坛、博客。最后才是:Elasticsearch中文社区、其他相关中文技术博客等。1.配置节点步骤1.修改文件jvm.options-Xms8g-Xmx8g步骤2.修改文件el...原创 2019-07-02 16:31:46 · 652 阅读 · 0 评论 -
结构化查询(Query DSL)和结构化过滤(Filter DSL)
结构化查询 Query DSL–空查询,查询所有记录 GET /testindex/testtable/_search { “query”: { “match_all”: {} } }–查询指定字段demo字段包含指定值的记录 GET /testindex/testtable/_search { “query”: { “ma原创 2017-02-18 15:17:15 · 1214 阅读 · 0 评论 -
elasticsearch中的字段类型/mapping参数
(一)核心数据类型: (1)string: 默认会被分词 string类型包括:text 和 keyword一个完整示例如下 : "status": { "type": "string", //字符串类型 "index": "analyzed"//分词,不分词是:not_analyzed ,设置成no,字段将不会被索引 "analyz原创 2017-02-19 22:48:47 · 2255 阅读 · 0 评论 -
同步数据库到elasticsearch
elasticsearch-jdbc同步mysql到elasticsearch一、介绍将mysql同步到elasticSearch的插件有:1)elasticsearch-jdbchttps://github.com/jprante/elasticsearch-jdbc 之前的链接是:https://github.com/jprante/elasticsearch-river-jdbc2)el原创 2016-11-20 22:26:40 · 3473 阅读 · 1 评论 -
oracle分页查询
oracle分页查询 1.一个通用的格式如下:--rownum 是记录序号(1,2,3...),--注意:如果 SQL 语句中有 ORDER BY ... 排序的时候,rownum 居然是先“标号”后排序 SELECT * FROM ( SELECT A.*, rownum r FROM ( SELE原创 2009-12-08 15:28:00 · 435 阅读 · 0 评论 -
快速统计数据库每个表的记录数
快速得到数据库每个表的记录数一般情况下,我们用count(*)来统计记录数。但当数据量特别大时,这种方法很慢。下面提供如何借用sysindexes和sysobjects表来得到某个数据库每个表记录数的方法,不过,这种方法好像有些延时(具体没测试)。 SQL Server 2000版本的SQL 语句:SELECT o.NAME, i.rowcnt FROM sysindexes A原创 2009-11-13 15:12:00 · 1884 阅读 · 1 评论 -
数据库快照
-- 创建数据库快照CREATE DATABASE 数据库快照名称 ON(NAME = 数据库文件名称, FILENAME = E:/SQL2005/MSSQL.1/MSSQL/Data/数据库快照文件名称.ss )AS SNAPSHOT OF 数据库名称;GO -- 恢复数据库快照RESTORE DATABASE 数据库名称 FROM DATABASE_SNAPSHOT = 数据库快照名原创 2009-10-14 12:31:00 · 462 阅读 · 0 评论 -
sql测试及性能分析方法
sql测试及性能分析方法一、sql缓存的处理1.清除缓存--清除所有缓存DBCC DROPCLEANBUFFERS --清除存储过程缓存 DBCC FREEPROCCACHE --清除会话缓存DBCC FREESESSIONCACHE --清除系统缓存DBCC FREESYSTEMCACHE ---清空特定缓原创 2016-11-01 10:42:13 · 1023 阅读 · 0 评论 -
Elasticsearch-SQL
Elasticsearch-SQL安装https://github.com/NLPchina/elasticsearch-sql一、基本用法Visit The elasticsearch-sql web front end:http://localhost:9200/_plugin/sql/Simple queryhttp://localhost:9200/_sql?sql=select *原创 2016-11-19 15:54:04 · 660 阅读 · 0 评论 -
Elasticsearch的安装与入门
Elasticsearch的安装与入门一、名词解释:Cluster:集群。Index:索引,Index相当于关系型数据库的DataBase。Type:类型,相当于关系型数据库的table。Document:文档,Json结构,这点跟MongoDB差不多。Shard、Replica:分片,副本。Transport:支持的交互协议discovery.zen:自动发现集群节点的p2p系统r原创 2016-11-18 11:09:12 · 1199 阅读 · 0 评论 -
elasticsearch-analysis-ik
elasticsearch-analysis-ik一、elasticsearch-analysis-ik的安装与配置下载插件elasticsearch-analysis-ik并安装源码地址:https://github.com/medcl/elasticsearch-analysis-ik在ES的配置文件config/elasticsearch.yml中增加ik的配置,在最后增加:inde原创 2016-11-22 18:11:19 · 943 阅读 · 0 评论 -
ElasticSearch单机配置节点
单机单节点配置cluster.name: esbestnode.name: node127-9200node.master: truepath.data: /esdata/data-9200path.logs: /eslog/log-9200bootstrap.memory_lock: falsebootstrap.system_call_filter: falsehttp.por...原创 2019-07-05 16:07:41 · 3214 阅读 · 0 评论