![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据开发
文章平均质量分 59
潇潇雨歇_
www
展开
-
Elasticsearch 带中文分词的全文检索(分页+高亮返回)
Full text queries 全文搜索主要有以下几种类型:DSL 查询语句:1.2 多字段查询(multi_match query)可以用来对多个字段的版本进行匹配查询DSL查询语句:1.3 常用术语查询(common_terms query)可以对一些比较专业的偏门词语进行的更加专业的查询DSL查询语句:1.4 查询语句查询(query_string query) 与lucene查询语句的语法结合的更加紧密的一种查询,允许你在一个查原创 2022-11-21 11:37:07 · 2284 阅读 · 0 评论 -
Hbase geohash实现地理轨迹的空间搜索实现思路设计
需求背景:现有用户的出行轨迹都存储在分布式的hbase库中,管理员需要从地图上框选一个矩形或多边形区域,找出该区域和指定时间内活动的用户及其出行轨迹,进行分析。经过调研,了解到关于地理索引有一套比较通用的GeohHash算法,于是使用geohash实现该空间搜索的逻辑。GeoHash是将二维的经纬度转换成字符串,每一个字符串代表了某一矩形区域。也就是说,这个矩形区域内所有的点(经纬度坐标)都共享相同的GeoHash字符串,比如说我在七天酒店,我朋友在附近的世纪百货,我们的经纬度点会得到相同的GeoHash.原创 2022-04-26 10:57:40 · 1069 阅读 · 0 评论 -
Kafka搭建系统实时监控平台,到达时间阈值或者数量限制后并实现Redis日批量入库
代码:1.生产者import org.apache.kafka.clients.producer.Callback;import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.ProducerRecord;import org.apache.kafka...原创 2019-11-22 14:51:18 · 723 阅读 · 0 评论 -
Windows系统搭建Storm 分布式实时计算开发环境
1.准备工作1.1 下载Storm apache-storm-2.0.0下载1.2 下载安装 zookeeper 步骤详看本人博客 Window系统下搭建Zookeeper和Kafka环境1.3 下载python2. 安装Storm环境2.1 下载解压Storm,默认配置即可,如有需要可修改D:\storm-2.0.0\conf 目录的storm.yaml文件2.2 启动...原创 2019-10-31 15:06:29 · 1134 阅读 · 1 评论 -
Linux搭建sqoop数据迁移工具及简单的数据迁移测试
1.准备环境及工具JDK 1.8 已搭建 Hadoop 3.1.1 已搭建 zookeeper 3.5.5 下载 hbase 2.2.0 下载 hive 3.1.1 已搭建 sqoop-1.4.7 下载 ojdbc8(该版本的驱动支持jdk1.8) 下载2.搭建zookeeper 3.5.5单机模式2.1 解压zookeepertar -zxvf apach...原创 2019-07-11 15:29:17 · 2365 阅读 · 0 评论 -
Hive环境搭建,并配置Oracle作为元数据库
1.准备工具及环境: 1.1 hadoop环境(之前已经安装,不介绍) 1.2 hive-3.1.1 下载 1.3 Oracle服务器(已搭建,不介绍) 1.4 ojdbc8(该版本的驱动支持jdk1.8) 下载2.Hive的安装 2.1 使用WinSCP上传已下载的Hive安装包至指定安装路径(/home/fangw/bigData),并用命令tar -zxvf ap...原创 2019-07-09 14:53:46 · 2441 阅读 · 0 评论 -
SpringBoot集成Hadoop系列二 ---- MapReduce对表的join操作
代码:package com.hadoop.reduce.model;import org.apache.hadoop.io.Writable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;/** * 订单商品对象 * @author linhaiy * @da...原创 2019-05-23 20:44:05 · 1202 阅读 · 0 评论 -
SpringBoot集成Hadoop系列二 ---- MapReduce数据的分组统计,排序
代码:package com.hadoop.reduce.model;import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;/** * 分组排序model类 * @author ...原创 2019-05-23 20:34:12 · 2089 阅读 · 0 评论 -
SpringBoot集成Hadoop系列二 ---- MapReduce明星微博统计
代码:package com.hadoop.reduce.model;import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;/** * 统计明星微博数据实体 * @author ...原创 2019-05-23 20:25:08 · 874 阅读 · 0 评论 -
SpringBoot集成Hadoop系列二 ---- MapReduce统计数据文件的共同好友
代码:package com.hadoop.reduce.mapper;import java.io.IOException;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;/** * 查找共...原创 2019-05-23 20:14:56 · 973 阅读 · 0 评论 -
SpringBoot集成Hadoop系列二 ---- MapReduce一年最高气温统计
代码:package com.hadoop.reduce.mapper;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.ap...原创 2019-05-23 20:05:46 · 2260 阅读 · 2 评论 -
SpringBoot集成Hadoop系列二 ---- MapReduce词频统计
继上篇SpringBoot集成Hadoop系列一 ---- 对HDFS的文件操作建的工程,接下来使用MapReduce进行一些数据文件的统计开发.这里做一个很经典的统计功能,词频统计. 代码:package com.hadoop.reduce.mapper;import java.io.ByteArrayInputStream;import java.io.IOE...原创 2019-05-23 19:52:23 · 3388 阅读 · 1 评论 -
SpringBoot集成Hadoop系列一 ---- 对HDFS的文件操作
一.对HDFS操作设计以下几个主要的类:Configuration:封装了客户端或者服务器的配置信息FileSystem:此类的对象是一个文件系统对象,可以用该对象的一些方法来对文件进行操作通过FileSystem的静态方法get获得该对象,例:FileSystem hdfs = FileSystem.get(conf);FSDataInputStream:这是HDFS中的输入流,通过...原创 2019-05-23 19:32:43 · 29926 阅读 · 13 评论 -
Hbase Java API对数据的一些操作使用
代码:1.一些依赖<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.or...原创 2019-05-25 19:54:23 · 452 阅读 · 0 评论 -
Windows系统搭建Hbase开发环境
继Windows系统搭建Hadoop,Spark开发环境 文章之后,接下来搭建Windows环境下Hbase开发环境,环境搭建均为单机使用模式,仅供学习。因在Linux系统上搭建流程较为繁琐,实在没必要浪费太多精力在搭建环境上面,所以步骤越简单越好,能迅速学到大数据框架的开发技术才是最重要的。Hbase是构建在Hadoop HDFS之上的,所以需要Hadoop的支持。前面已经介绍过Hadoop的搭...原创 2019-05-16 15:52:45 · 1734 阅读 · 0 评论 -
Windows系统搭建Hadoop,Spark开发环境
1.准备工具: 1.Hadoop所需要替换的bin目录下的文件 2.Hadoop 3.1 3.spark-2.3.1 4.JDK 1.8工具下载: 下载2.解压配置2.1 将下载好的Hadoop 和 Spark进行解压,并重命名,此处我重名为:hadoop-3.1.0和spark2.2 将准备工具中的第一项下载的包(hadoop3.1-bin)进行解压,...原创 2019-05-15 18:42:08 · 2653 阅读 · 1 评论