280亿条大数据处理实战——(三)环境安装

此节主要讲述 hdfs 的基本使用和 Spark 编译及其遇到的坑。 一、Spark编译 编译 spark 是个很复杂的过程。 1、编译方法 (1)方式一(推荐使用此种方法):使用 make-distribution.sh 进行编译: 在 $SPARK_HOME 目录下,输入并允许如下命...

2019-06-28 17:16:15

阅读数 30

评论数 1

280亿条大数据处理实战——(五)解决方案二

上面一篇讲到过,第一种方案有很多问题,于是问了很多人和做了较多实验有了第二种方案。第二种方案需要提前了解如下知识: 一、hive 表修复 hive 表修复网上有很多例子,这里可以简单理解为通过修复,可以直接快速的将 hdfs 与 hive 表进行关联。导入到 hdfs 里面的数据可以直接在 h...

2019-06-27 15:59:43

阅读数 33

评论数 2

280亿条大数据处理实战——(四)解决方案一

问题是找出 280 亿条数据里面起点位置所在的经纬度省市区等信息、终点位置所在的经纬度省市区等信息,而且要根据天数来分出来(大概是 21 天)。其实就在 280 亿条数据里面增加 14 个字段。如果是小数据量,直接在数据库中 join 就行了,但是数据量一大,很多方法就不可用了。 初步想到的是将...

2019-06-27 15:59:15

阅读数 22

评论数 0

280亿条大数据处理实战——(二)环境安装

使用spark之前需要安装如下环境: 一、安装包下载 1、jdk 下载 本文使用的是jdk1.8.0_91,直接官网下载的,或者直接在这里下载(https://download.csdn.net/download/ocean111best/11257045),建议使用jdk1.8以上版本,低...

2019-06-27 15:58:32

阅读数 17

评论数 0

280亿条大数据处理实战—(一)linux基本使用

Spark是最适合运行在 linux 系统和 mac 系统的(当然 Windows 也可以安装,但是比较麻烦,不建议在 Windows 上安装),实在不行可以自己在 Windows上安装一个虚拟机,虚拟机上安装centos系统。学习大数据必须之前要学习一些 linux 系统的基本操作。 如下是我...

2019-06-27 15:58:10

阅读数 19

评论数 0

280亿条大数据处理实战—总起

最近部门需要处理 280 亿条移动信令数据,有 200 个文件,每个文件 5000 多万条数据。每个文件由七个字段组成,分别是:gridt1(栅格起始时间)、gridt2(栅格结束时间)、startgrid(起点位置编号)、endgrid(终点位置编号)、userid(用户id)、belongid...

2019-06-27 15:57:20

阅读数 31

评论数 0

Springboot+ElasticSearch 项目实战(三)

这篇接着上一篇(https://blog.csdn.net/Ocean111best/article/details/86092862),本来准备上一篇写完,但是发现还是太多,故再写一篇。 发现刚开始写博客时,千言万语,最后确不知道怎么说,只有直接简单粗暴地贴代码了,希望以后坚持多写,慢慢地有所...

2019-01-17 09:59:30

阅读数 1860

评论数 1

Springboot+ElasticSearch 项目实战(二)

这篇接着上一篇(https://blog.csdn.net/Ocean111best/article/details/85948948),本来准备上一篇写完,但是发现太多,故再写一篇。 三、Springboot 搭建 一、本次搭建中,首先需要确定 Springboot 版本和 ElasticS...

2019-01-16 18:53:48

阅读数 454

评论数 0

Springboot+ElasticSearch 项目实战(一)

一、项目需求 部门需要做一个统计年鉴系统,类似于 cnki 里面的中国经济社会大数据研究平台里面的。将数据查询出来后,以可视化图表展示出来。现在是有 360 多万条数据,要是还是用 Springboot+Mybatis 的话查询会很慢,于是有个同事建议用 ES 相关技术。 统计年鉴字段和数据如...

2019-01-14 20:18:30

阅读数 670

评论数 2

Elasticsearch6.5+Logstash6.5安装和配置

1、Elasticsearch6.5 1.1 ElasticSearch 简介 (1)基于 Apache Lucene 构建的 开源搜索引擎,提供一个分布式多用户的全文搜索引擎; (2)提供了简单易用的 Java Restful API,是当前流行的企业级搜索引擎; (3)轻松的横向扩展,...

2019-01-13 22:06:27

阅读数 556

评论数 0

Elasticsearch 6.5 + SpringBoot1.5

最近部门要做一个统计年鉴系统,需要从三百六十多万条数据里面搜索出数据并且展示,如果还用原先的 Spring+SpringMVC+Mybatis 将会搜索很慢,效率很低。于是听到了一个同事说应该用大数据搜索引擎技术来做这个。由于部门暂时做后端的人手不够,所以由我来做了(原先我是做前端的),于是慢慢地...

2019-01-13 09:21:20

阅读数 534

评论数 0

Java中 HashMap和Hashtable的区别以及对线程安全的理解

HashTable是线程同步的、不允许空的键值,线程安全的; HashMap是线程不同步的、允许空的键值、线程不安全的;相对HashTable效率高点;所谓线程不同步,是指多个线程访问时必须加Synchronized关键字; 什么是线程安全?        如果你的代码所...

2017-08-23 15:40:15

阅读数 395

评论数 0

学习系列一:多线程理解

开始写对多线程的理解。主要就写 Thread 和 Task 的应用吧。 一、Thread 二、Task

2017-08-06 22:12:37

阅读数 174

评论数 0

C#数据(文件)校验功能(涉及面向对象编程、多线程、委托、事件的使用)

本来要做一个从服务器中读取数据,校验数据有没有被修改过。然后在本地

2017-08-06 10:00:37

阅读数 363

评论数 1

Dev TreeList + Dev GridControl 文件管理系统

C# 写的用 Dev GridControl 插件和 Dev TreeList 做的类似于“我的电脑”的文件管理系统。

2017-07-13 20:43:23

阅读数 518

评论数 0

SQL增删改查语句

最近项目中得用到SQL语句,我复习了一下,把它总结下来 一,增    1.1【插入单行】       insert [into] (列名) values (列值) 例:insert into Students (姓名,性别,出生日期) values ('苏宇','男','1980/6...

2016-09-29 10:04:25

阅读数 737

评论数 0

HTML文件编译浏览时文字乱码

学习Web前端开发,好好学习,天天向上

2016-09-21 17:00:12

阅读数 664

评论数 0

JavaScript原型、闭包、继承和原型链等等总结

几年之前学习过Javascript,当时学得比较浅显,现在又开始学了,发现Javascript其实挺难的,有些地方还是得花时间去理解的,于是看了很多的视频和博客,自己在这里小小的总结下。。。 1.一切(引用类型)都是对象,对象是属性的集合。       undefined, number, str...

2016-09-17 21:10:38

阅读数 7020

评论数 2

JS中的try-catch语句

有下列三种情况: 一,try块里面嵌套有try和finally语句 二,try块里面嵌套有try、catch和finally语句 三,try块里面嵌套有try、catch和finally语句,且catch语句里面又抛出了一个异常。 总结:当try块里面的异常没处理(异常...

2016-09-17 15:32:55

阅读数 763

评论数 1

经典SQL语句大全

一、基础 1、说明:创建数据库 CREATE DATABASE database-name  2、说明:删除数据库 drop database dbname 3、说明:备份sql server --- 创建 备份数据的 device USE master EXEC sp_addum...

2016-07-08 14:17:33

阅读数 259

评论数 0

提示
确定要删除当前文章?
取消 删除