2016年10月_北京小辉

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月

原创 Kafka：无丢失将kafka的值读取到hbase

目录1、需求2、代码1、需求功能：将kafka数据读取到HBASE中步鄹： 1、提取topicName在zookeeper中的offset 2、循环读取topicName中的offset且对比zookeeper中的offset 3、将提取的数据转为DF 4、存储到Hbase中备注：博文中使用到了Zookeeper的使用，请查考下面博

2016-10-31 19:44:25 5693

原创 Zookeeper：Curator框架应用和常用命令

目录CuratorFramework介绍scala代码体现scala代码结果Linux命令1）CuratorFramework介绍 Curator框架提供了一套高级的API，简化了ZooKeeper的操作。它增加了很多使用ZooKeeper开发的特性，可以处理ZooKeeper集群复杂的连接管理和重试机制。这些特性包括：自动化的连接管理: 重新建立到ZooKeeper的连接和重试机

2016-10-31 19:18:10 2442

原创通过一条SQL分析SparkSQL执行流程(一)

本地连接集群运行Saprk程序两种方式目录1）通过Maven（简单一些，建议用这种）2）下载Saprk环境1）通过Maven 备注：java是1.8版本，scala是2.11.6版本 maven中加入的依赖如下： <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</

2016-10-31 09:12:39 3074

原创深入理解Java的接口和抽象类

对于面向对象编程来说，抽象是它的一大特征之一。在Java中，可以通过两种形式来体现OOP的抽象：接口和抽象类。这两者有太多相似的地方，又有太多不同的地方。很多人在初学的时候会以为它们可以随意互换使用，但是实际则不然。今天我们就一起来学习一下Java中的接口和抽象类。下面是本文的目录大纲：目录一.抽象类二.接口三.抽象类和接口的区别一.抽象类在了解抽象类之前，先来了解一下抽象方法。抽象方

2016-10-21 16:04:09 689

原创 kafka：python获取kafka的值

需求：获取通过python查看kafka中的值#!/user/local/python2.6.6/bin/python# -*- coding: utf-8 -*-# __project__ = src# __author__ = kassien@163.com# __date__ = 2016-09-21 # __time__ = 12:49#kafka的节点kafka_list =

2016-10-19 16:58:41 8408

原创设计模式：23种设计模式综述

设计模式（Design Patterns） ——可复用面向对象软件的基础设计模式（Design pattern）是一套被反复使用、多数人知晓的、经过分类编目的、代码设计经验的总结。使用设计模式是为了可重用代码、让代码更容易被他人理解、保证代码可靠性。毫无疑问，设计模式于己于他人于系统都是多赢的，设计模式使代码编制真正工程化，

2016-10-17 22:12:39 2047

原创设计模式：Command（命令）

Command定义将来自客户端的请求传入一个对象，无需了解这个请求激活的动作或有关接受这个请求的处理细节。这是一种两台机器之间通讯联系性质的模式，类似传统过程语言的 CallBack功能。优点：解耦了发送者和接受者之间联系。发送者调用一个操作，接受者接受请求执行相应的动作，因为使用Command模式解耦，发送者无需知道接受者任何接口。不少

2016-10-17 16:09:59 2100 1

转载 “前首富”牟其中：欠的人情太多，要留着命来还

出狱后，牟其中换了身新衣服 “这里通向世界。” 这句话，刻在牟其中母亲墓碑上，是他亲笔写的墓志铭。 “因为母亲养育了我，无论走了多远，做了多大的事情，我的起点在这，根在这儿。”牟其中说，“这句话是我第一次坐牢的时候想到的。” 从1985年离开家乡，到2016年9月28日回乡，31年，牟其中从起点绕一个圈后又会回到起点。不同的是，当年的四川

2016-10-13 22:31:23 623

原创 Scala：使用 for-yield 表达式打印乘法表

在《Programming in Scala》中作者说，“Scala 中的 for 表达式对于迭代就像一把瑞士军刀”。可见，for 表达式的使用在 Scala 中出于多么重要的位置。我们可以使用for 表达式来简洁地完成迭代枚举的功能。与 Java 等不同的是，Scala 中有个生成器（generator）的概念，它的语法是 1 to 10 或者 1 until 10 ，前者代表从 1 到 10 进

2016-10-10 15:14:24 855

原创命令行:获取用户命令行参数Option

运行参数：代码package com.donews.data.hbaseuserimport java.time.LocalDateimport com.donews.data.util.Datesimport org.apache.commons.cli.{GnuParser, HelpFormatter, Options}object JdkLogTest{ def main(args:

2016-10-10 10:37:52 3425

原创 phoenix修改表名

需求：在phoenix中将表名TABLE1，改为表名TABLE2步鄹：1）phoenix建立表名TABLE1 2）Hbase中修改表名TABLE1为TABLE2 3）phoenix建立表名TABLE2（格式同TABLE1） 4）查询phoenix中TABLE2//phoenix中的操作DROP TABLE TABLE2;CREATE TABLE TABLE1 (ID VARCHAR NOT

2016-10-09 17:40:34 2965 1

Mysql教程所有数据.zip

博客【北京小辉】中Mysql教程的所有加载数据。余辉，中科院硕士研究生毕业，专注于大数据领域多年。曾工作于清华大学、京东，现从事大数据讲师一职。博客地址：https://blog.csdn.net/silentwolfyh

2020-05-05

新概念2知识点.pdf

新概念2-课文名称和知识点，链接：https://blog.csdn.net/silentwolfyh/article/details/95083297

2019-09-06

crawlerBank.py

功能说明： 2、选择爬取代码说明： 1、如果没有参数，则抓取所有银行数据 1.1、抓取过程中如果有一家银行有错误，会邮件报警，且不影响其余银行抓取 2、如果有参数（参数只能有一个）且参数正确，则抓取对应银行数据 3、如果有参数（参数只能有一个）且参数操作，则停止运行，弹出正确参数列表 4、15家银行的银行名称、银行代码、银行URL如下所示：备注： 001 属于页面数据源在内嵌Iframe 002 属于页面数据源为json 008 属于页面数据源为js 010 属于页面数据源为xml

2019-07-08

Hive的Udf函数进行数据脱敏

udf开发–做个简单脱敏udf保留前5位，后面全部替换成*****

2019-01-26

sqoop的数据导入

2019-01-16

SpringBoot的mvc三层以及增删改查页面

demo说明 1、这个demo是一个springboot的样例。 2、MVC三层都弄好了,增删改查功能都能用。 3、Test中有Service层的测试方法参考地址:https://blog.csdn.net/silentwolfyh/article/details/84350966 参考地址:https://blog.csdn.net/silentwolfyh/article/details/83995563

2018-11-22

spring boot+mybatis整合

目录一、整体结构图二、Spring boot搭建三、整合Mybatis(自动生成工具) 1、集成druid，使用连接池 2、自动生成工具依赖和插件 3、最终的pom.xml文件： 4、在application.yml中添加数据源、Mybatis的实体和配置文件位置。 5、自动生成代码配置文件。 6、建立数据库和表 7、生产Dao层和entity类 8、建立controller层类 9、建立service层类 10、启动之后结果展示 --------------------- 作者：silentwolfyh 来源：CSDN 原文：https://blog.csdn.net/silentwolfyh/article/details/83995563 版权声明：本文为博主原创文章，转载请附上博文链接！

2018-11-12

Lucene实战(第2版).pdf

《lucene实战（第2版）》基于apache的lucene3.0，从lucene核心、lucene应用、案例分析3个方面详细系统地介绍了lucene，包括认识lucene、建立索引、为应用程序添加搜索功能、高级搜索技术、扩展搜索、使用tika提取文本、lucene的高级扩展、使用其他编程语言访问lucene、lucene管理和性能调优等内容，最后还提供了三大经典成功案例，为读者展示了一个奇妙的搜索世界。　　《lucene实战（第2版）》适合于已具有一定java编程基本的读者，以及希望能够把强大的搜索功能添加到自己的应用程序中的开发人员。lucene实战（第2版）》对于从事搜索引擎工作的工程技术人员，以及在java平台上进行各类软件开发的人员和编程爱好者，也具有很好的学习参考价值。

2018-08-28

SparkSql技术

目录一：为什么sparkSQL？ 3 1.1：sparkSQL的发展历程 3 1.1.1：hive and shark 3 1.1.2：Shark和sparkSQL 4 1.2：sparkSQL的性能 5 1.2.1：内存列存储（In-Memory Columnar Storage） 6 1.2.2：字节码生成技术（bytecode generation，即CG） 6 1.2.3：scala代码优化 7 二：sparkSQL运行架构 8 2.1：Tree和Rule 9 2.1.1：Tree 10 2.1.2：Rule 10 2.2：sqlContext的运行过程 12 2.3：hiveContext的运行过程 14 2.4：catalyst优化器 16 三：sparkSQL组件之解析 17 3.1：LogicalPlan 18 3.2：SqlParser 20 3.1.1：解析过程 20 3.1.2：SqlParser 22 3.1.3：SqlLexical 25 3.1.4：query 26 3.3：Analyzer 26 3.4：Optimizer 28 3.5：SpankPlan 30 四：深入了解sparkSQL运行计划 30 4.1：hive/console安装 30 4.1.1：安装hive/cosole 30 4.1.2：hive/console原理 31 4.2：常用操作 32 4.2.1 查看查询的schema 32 4.2.2 查看查询的整个运行计划 33 4.2.3 查看查询的Unresolved LogicalPlan 33 4.2.4 查看查询的analyzed LogicalPlan 33 4.2.5 查看优化后的LogicalPlan 33 4.2.6 查看物理计划 33 4.2.7 查看RDD的转换过程 33 4.2.8 更多的操作 34 4.3：不同数据源的运行计划 34 4.3.1 json文件 34 4.3.2 parquet文件 35 4.3.3 hive数据 36 4.4：不同查询的运行计划 36 4.4.1 聚合查询 36 4.4.2 join操作 37 4.4.3 Distinct操作 37 4.5：查询的优化 38 4.5.1 CombineFilters 38 4.5.2 PushPredicateThroughProject 39 4.5.3 ConstantFolding 39 4.5.4 自定义优化 39 五：测试环境之搭建 40 5.1：虚拟集群的搭建（hadoop1、hadoop2、hadoop3） 41 5.1.1：hadoop2.2.0集群搭建 41 5.1.2：MySQL的安装 41 5.1.3：hive的安装 41 5.1.4：Spark1.1.0 Standalone集群搭建 42 5.2：客户端的搭建 42 5.3：文件数据准备工作 42 5.4：hive数据准备工作 43 六：sparkSQL之基础应用 43 6.1：sqlContext基础应用 44 6.1.1：RDD 44 6.1.2：parquet文件 46 6.1.3：json文件 46 6.2：hiveContext基础应用 47 6.3：混合使用 49 6.4：缓存之使用 50 6.5：DSL之使用 51 6.6：Tips 51 七：ThriftServer和CLI 51 7.1：令人惊讶的CLI 51 7.1.1 CLI配置 52 7.1.2 CLI命令参数 52 7.1.3 CLI使用 53 7.2：ThriftServer 53 7.2.1 ThriftServer配置 53 7.2.2 ThriftServer命令参数 54 7.2.3 ThriftServer使用 54 7.3：小结 56 八：sparkSQL之综合应用 57 8.1：店铺分类 57 8.2：PageRank 59 8.3：小结 61 九：sparkSQL之调优 61 9.1：并行性 62 9.2：高效的数据格式 62 9.3：内存的使用 63 9.4：合适的Task 64 9.5：其他的一些建议 64 十：总结 64

2018-08-16

TA关注的人

北京小辉