2018年11月_脸ル粉嘟嘟

12月 11月 10月 09月 08月 07月 06月

原创 kafka使用说明书

首先要打开zookeeper，其次打开kafka，关闭时要先关闭kafka再关闭zookeeper启动zookeeperzookeeper-server-start.sh config/zookeeper.properties启动kafkakafka-server-start.sh config/server.properties停止kafkakafka-server-...

2018-11-29 21:29:50 438

原创 solr部署以及ik中文分词案例

1.简介Solr是一个高性能，采用Java5开发，Solr基于Lucene的全文搜索服务器。同时对其进行了扩展，提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展并对查询性能进行了优化，并且提供了一个完善的功能管理界面，是一款非常优秀的全文搜索引擎。因为中文的特殊性，在对中文文档建立全文索引时，需要利用分词工具进行分词。目前比较知名的分词工具有：IK，庖丁等.下面使用的是I...

2018-11-24 16:35:09 270

原创 Java使用PDFBox操作PDF文件获取页码、文章内容、缩略图

一、依赖<dependency> <groupId>com.sleepycat</groupId> <artifactId>......

2018-11-06 22:12:39 6646

原创关于hadoop各种项目中用到的maven依赖

-----------------scala-spark<dependencies>  <dependency> <groupId>org.apache.spark</groupId> <artifactId>spa...

2018-11-28 21:17:45 4811

转载阿里云服务器快速搭建自己的个人网站

https://yq.aliyun.com/articles/423918阿里云服务器快速搭建自己的个人网站 https://www.aliyun.com/jiaocheng/127216.html如何快速搭建个人网站（服务器配置篇） https://blog.csdn.net/qq_30865575/article/details/78273291 关于将Web项目部署...

2018-11-25 22:18:42 1688

转载 CentOS7命令大全

管理centos服务器的时候常会对文件进行一些常规操作，除了ftp之外了解在ssh下必要的文件操作命令那也是必不可少的，以下摘录一些常用的文件操作命令：查看ip：ip addr文件操作： ls ####查看目录中的文件#### ls -F ####查看目录中的文件#### ls -l ####显示文件和目录的详细资料#### ls -a ####显示隐藏文件#### ls [0-...

2018-11-25 14:51:02 14043

原创 windows安装MySQL详细图解过程

MySQL安装图解前言：下载地址链接：https://pan.baidu.com/s/1BMzQmMcZMCvixKBsnCkFrw 提取码：tec2 一、MYSQL的安装１、打开下载的mysql安装文件mysql-5.5.27-win32.zip，双击解压缩，运行“setup.exe”。２、选择安装类型，有“Typical（默认）”、“Complete（完全）”、...

2018-11-24 12:27:30 260

原创 spark数据倾斜分析与解决方案

Spark数据倾斜(数据分布不均匀)数据倾斜发生时的现象：绝大多数task（任务）执行得都非常快，但个别task执行极慢。 OOM(内存溢出)，这种情况比较少见。数据倾斜发生的原理数据倾斜的原理很简单：在进行shuffle的时候，必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理，比如按照key进行聚合或join等操作。此时如果某个key对应的数据量特别大，就会发...

2018-11-23 21:02:47 199

原创浅谈KMlib(机器学习)

PipeLine Pipeline:管道，在spark mllib中，作用主要是来定义计算的流程。模型的保存等。相当于提供了一个工具类，可以让我们更方便的使用spark mllib 推荐：在使用sparkmllib过程中，建议通过pipeline将数据处理流程，连接起来，同时将模型的结果通过pipeline保存和加...

2018-11-23 20:33:36 208

原创 Flume分析

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。当前Flume有两个版本Flume 0.9X版本的统称Flume-og，Flume1.X版本的统称Flume-ng。由于Flume-...

2018-11-23 19:33:20 225

转载 NotePad++快捷键总结

1. 文件相关快捷键动作定义 Ctrl-O 打开文件 Ctrl-N 新建文件 Ctrl-S 保存文件 Ctrl-Alt-S 文件另存为 Ctrl-Shift-S 保存所有打开文件 Ctrl-P 打印 Alt-F4 退出程序 Ctrl-Tab 文件标签跳转，跳至下一个打开文件 Ctrl-Shift-...

2018-11-22 15:53:12 119

原创 SparkStreamingStateful

/* * @Title: SparkStreamingStatefulDemo * @ProjectName spark-scala * @Description: TODO * @author Mr.lu * @date 2018/11/19:10:25 *//** * 实时处理数据有状态计算需要还原点 */import org.apache.sp...

2018-11-22 09:54:13 170 2

翻译 kafka的介绍

ApacheKafka®是一个分布式流媒体平台。这到底是什么意思呢？流媒体平台有三个关键功能：发布和订阅记录流，类似于消息队列或企业消息传递系统。以容错的持久方式存储记录流。记录发生时处理流。Kafka通常用于两大类应用：构建可在系统或应用程序之间可靠获取数据的实时流数据管道构建转换或响应数据流的实时流应用程序要了解Kafka如何做这些事情，让我们深入探讨Kafka的能......

2018-11-21 22:15:50 632

原创 Scala整体介绍

Scala面向对象、函数式编程、更高层的并发模型—里面包含编译器、类库它不存在成员变量，通过object（单例）取代函数处理：可以吧函数化成一个参数传过去Object：入口类关键字-项目入口类似于Java中的main方法Def:函数声明—定义一个方法/函数Val:常量声明Any:公共超类型 scala中父类Unit：返回值为空—Java中的void（）伴生对象...

2018-11-20 22:43:34 229

原创 kafka幂等producer

众所周知，Kafka 0.11.0.0版本正式支持精确一次处理语义(exactly once semantics，下称EOS)。Kafka的EOS主要体现在3个方面：幂等producer：保证发送单个分区的消息只会发送一次，不会出现重复消息事务(transaction)：保证原子性地写入到多个分区，即写入到多个分区的消息要么全部成功，要么全部回滚流处理EOS：流处理本...

2018-11-20 21:10:20 618

原创 RDD（弹性分布式数据集）的分析

RDD：Resilient Distributed Dataset(弹性分布式数据集)弹性：数据集的可恢复型原因：在分布式环境下，运算节点很容易出问题，会造成数据的丢失，rdd可以在数据丢失的背景下恢复数据。数据恢复的技术：1.基本备份2.基于日志（hadoop namenode中的namespace在磁盘上对应的是fsimage+editslog，当namenode重启的时候...

2018-11-14 17:41:20 198

原创 Spark 开发环境搭建

1.创建maven工程创建project--Java创建module--maven2.添加依赖<dependencies>  <dependency> <groupId>org.apache.spark</groupId> &lt...

2018-11-14 17:38:49 371

原创本地yum仓库的配置安装

两种方式： a.每一台机器都配一个本地文件系统上的yum仓库 file：////package/path/ (不推荐因为需要在每台机器上配置) b.在局域网内配置一台节点（server-base）的本地文件系统yum仓库，然后将其发布到web服务器中，其他节点可以通过http://server-base/package/path/制作流程：挑选一台机器，挂载一个系统光...

2018-11-10 15:14:26 242

原创利用bdb实现持久化队列

一、BDB数据库环境,可以缓存StoredClassCatalog并共享--BdbEnvironmentimport java.io.File;import com.sleepycat.bind.serial.StoredClassCatalog;import com.sleepycat.je.Database;import com.sleepycat.je.DatabaseConf...

2018-11-06 22:00:10 2191

原创嵌入式数据库BDB的介绍与使用案例

一、Berkeley DB简介 Berkeley DB是一个开放源代码的内嵌式数据库管理系统，能够为应用程序提供高性能的数据管理服务。应用它程序员只需要调用一些简单的API就可以完成对数据的访问和管理。与常用的数据库管理系统（如MySQL和Oracle等）有所不同，在Berkeley DB中并没有数据库服务器的概念。应用程序不需要事先同数据库服务建立起网络连接，而是通过内嵌在程序...

2018-11-06 21:41:02 1420

原创 CentOS6安装hive-2.1.1

hive　　这里简单说明一下，好对大家配置hive有点帮助。hive是建立在hadoop上的，当然，你如果只搭建hive也没用什么错。说简单一点，hadoop中的mapreduce调用如果面向DBA的时候，那么问题也就显现了，因为不是每个DBA都能明白mapreduce的工作原理，如果为了管理数据而需要学习一门新的技术，从现实生活中来说，公司又需要花钱请更有技术的人来了。hive　　...

2018-11-02 20:36:35 516 2

dbf2csv.rar

dbf2csv路径下有一个【示例.txt】1.修改里面的路径位置（E:\luyz03）、2.把此文本文件的扩展名改为bat。（即将txt改为bat，此文本文件随即变为批处理文件）然后双击此文件，执行刚输入在文本文件里的命令，就会批量的将（file文件夹下面）的DBF文件转化成CSV文件。

2019-07-25

MobaXterm是Windows全能终端神器

MobaXterm提供了大量为程序员，网站管理员，IT管理员以及几乎所有需要以更简单的方式处理远程作业的用户量身打造的功能。它不仅支持各种连接和Unix命令，还可以像PuTTY一样通过SSH连接Raspberry Pi等开源硬件。

2018-10-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人