2016年07月_北京小辉

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月

原创 maven 手动把本地jar安装到本地仓库

参考：https://maven.apache.org/guides/mini/guide-3rd-party-jars-local.html是自己编写的一个jar文件，每次添加单个jar到maven本地仓库的操作如下： 1.建立一个新的文件夹，将jar文件存放在该文件夹下。注意文件夹下最好只存放该文件。 2.在该文件夹下建立一个pom.xml文件，在pom文件中定义其maven坐标。 3.在

2016-07-28 10:46:09 975

转载 Linux：Centos7升级内核

更新前，内核版本为：uname -r 3.10.0-327.10.1.el7.x86_64升级的方法：1、导入key rpm --import https://www.elrepo.org/RPM-GPG-KEY-elrepo.org 2、安装elrepo的yum源 rpm -Uvh http://www.elrepo.org/elrepo-release-7.0-2.el7.elrepo.n

2016-07-27 17:40:48 19730

原创 Linux：shell完美获取上月，本月，下月年月

#!/bin/shSHELL=/bin/bashPATH=/sbin:/bin:/usr/sbin:/usr/binMAILTO=rootHOME=/#需求：获取上月年月，本月年月，下月年月# 2016-06 2016-07 2016-08##坑01 #2016年当month为01的时候，上年月份为2015-12#2016年当month为12的时候，下年月

2016-07-27 17:12:59 30714 6

原创 Phoenix：Phoenix无法插值和读取Hbase

参考：http://blog.csdn.net/silentwolfyh/article/details/519072502、在服务器上每台spark机器上的spark-defaults.conf文件中的配置（在Phoenix4.7或以后的版本用phoenix-4.7.0-HBase-1.1-client-spark.jar，而在之前用phoenix-4.7.0-HBase-1.1-client.j

2016-07-22 17:54:07 3116

原创 phoenix建表列名重复，导致无法删除表格且修改，插入数据。

操作过程：第一步删除phoenix中系统的表格信息，主要为SYSTEM.CATALOG，第二步删除Hbase中的表格信息。操作步骤：（1）查询phoenix系统表 SYSTEM.CATALOG 内容是所有表格的信息，系统表和自建表SYSTEM.FUNCTION 内容是所有函数信息，系统函数和自定义函数SYSTEM.SEQUENCE 我也不知道SYSTEM.STATS

2016-07-22 10:40:03 4877

原创 DataFrame：通过SparkSql将Json数据转为DataFrame

import java.text.DecimalFormatimport com.alibaba.fastjson.JSONimport com.donews.data.AppConfigimport com.typesafe.config.ConfigFactoryimport org.apache.spark.sql.{SaveMode, DataFrame, SQLContext}

2016-07-20 11:57:27 4331

原创 DataFrame：通过SparkSql将scala类转为DataFrame

package com.donews.data.hbaseuserimport com.alibaba.fastjson.JSONimport com.donews.data.AppConfigimport com.typesafe.config.ConfigFactoryimport org.apache.spark.sql.{Row, SaveMode, DataFrame, SQ

2016-07-20 11:48:05 3238

原创 Mysql教程（二）---Mysql建库建表规范

1、最简单的：CREATE TABLE t1( id int not null, name char(20));2、带主键的：a：CREATE TABLE t1( id int not null primary key, name char(20));b：复合主键CREATE TABLE t1( id int not null, name char

2016-07-20 10:57:19 6282

原创 Mysql教程（二十二）---ISNULL（）和IFNULL（） is null 和 is not null

create table userinfo (num int not NULL,name varchar(20), age int , primary key(num));INSERT INTO userinfo(num , name , age) VALUES (1 , 'yuhui' , 30);INSERT INTO userinfo(num , name , age) VALUES (2

2016-07-20 10:55:17 2893

转载几张图看懂列式存储

最近看到一篇很好资料，里面三言两语配上几个图就把列式存储(Column-based Storage)讲明白了，牛啊！最喜欢的就是这种浅显易懂就把背景知识讲得明明白白，而不是长篇大论的讲概念。为什么要按列存储列式存储(Columnar or column-based)是相对于传统关系型数据库的行式存储(Row-basedstorage)来说的。简单来说两者的区别就是如何组织表(翻译不好，直

2016-07-14 17:14:12 905

转载网站数据统计分析之一：日志收集原理及其实现

网站数据统计分析工具是网站站长和运营人员经常使用的一种工具，比较常用的有谷歌分析、百度统计和腾讯分析等等。所有这些统计分析工具的第一步都是网站访问数据的收集。目前主流的数据收集方式基本都是基于javascript的。本文将简要分析这种数据收集的原理，并一步一步实际搭建一个实际的数据收集系统。1、数据收集原理分析简单来说，网站统计分析工具需要收集到用户浏览目标网站的行

2016-07-14 11:43:28 2322 2

原创 DataFrame自定义函数

我这里是一个简单的两个数相加，是为了取代sum聚合函数。官网： http://spark.apache.org/docs/latest/sql-programming-guide.html#udf-registration-moved-to-sqlcontextudf-java–scala第一、写函数/** * Created by silentwolf on 2016/7/12. */

2016-07-14 11:19:16 3246

原创 phoenix-4.7.0:DataFrame读取和导入到Hbase (apache版本)

phoenix-4.7.0安装 1、首先去官网下载Phoenix的压缩包下载地址：http://mirror.bit.edu.cn/apache/phoenix/ 由于我们系统的Hbase版本是1.1版本的，故下载4.7版本的Phoenix。2、解压缩Phoenix的压缩包 tar –zxvf phoenix-4.7.0-HBase-1.1-bin.tar.gz 3

2016-07-14 10:52:16 3765

原创 SparkSql中的ISNULL和CASE WHEN方法

元数据 data.json {“name”:”Yuhui”} {“name”:”lihui”, “age”:30} {“name”:”Justin”, “age”:19}people.json {“name”:”Yuhui”,”age”:29} {“name”:”lihui”, “age”:33} {“name”:”Leijiexu”, “age”:28}加载且建立临时表 val j

2016-07-11 10:59:28 15980

原创 phoenix-4.7.0常用命令

查看所有表0: jdbc:phoenix:localhost:2181> !tables查看表信息0: jdbc:phoenix:localhost:2181> !describe tables_name删除表0: jdbc:phoenix:localhost:2181> drop tables_name

2016-07-06 16:43:07 5189

Mysql教程所有数据.zip

博客【北京小辉】中Mysql教程的所有加载数据。余辉，中科院硕士研究生毕业，专注于大数据领域多年。曾工作于清华大学、京东，现从事大数据讲师一职。博客地址：https://blog.csdn.net/silentwolfyh

2020-05-05

新概念2知识点.pdf

新概念2-课文名称和知识点，链接：https://blog.csdn.net/silentwolfyh/article/details/95083297

2019-09-06

crawlerBank.py

功能说明： 2、选择爬取代码说明： 1、如果没有参数，则抓取所有银行数据 1.1、抓取过程中如果有一家银行有错误，会邮件报警，且不影响其余银行抓取 2、如果有参数（参数只能有一个）且参数正确，则抓取对应银行数据 3、如果有参数（参数只能有一个）且参数操作，则停止运行，弹出正确参数列表 4、15家银行的银行名称、银行代码、银行URL如下所示：备注： 001 属于页面数据源在内嵌Iframe 002 属于页面数据源为json 008 属于页面数据源为js 010 属于页面数据源为xml

2019-07-08

Hive的Udf函数进行数据脱敏

udf开发–做个简单脱敏udf保留前5位，后面全部替换成*****

2019-01-26

sqoop的数据导入

2019-01-16

SpringBoot的mvc三层以及增删改查页面

demo说明 1、这个demo是一个springboot的样例。 2、MVC三层都弄好了,增删改查功能都能用。 3、Test中有Service层的测试方法参考地址:https://blog.csdn.net/silentwolfyh/article/details/84350966 参考地址:https://blog.csdn.net/silentwolfyh/article/details/83995563

2018-11-22

spring boot+mybatis整合

目录一、整体结构图二、Spring boot搭建三、整合Mybatis(自动生成工具) 1、集成druid，使用连接池 2、自动生成工具依赖和插件 3、最终的pom.xml文件： 4、在application.yml中添加数据源、Mybatis的实体和配置文件位置。 5、自动生成代码配置文件。 6、建立数据库和表 7、生产Dao层和entity类 8、建立controller层类 9、建立service层类 10、启动之后结果展示 --------------------- 作者：silentwolfyh 来源：CSDN 原文：https://blog.csdn.net/silentwolfyh/article/details/83995563 版权声明：本文为博主原创文章，转载请附上博文链接！

2018-11-12

Lucene实战(第2版).pdf

《lucene实战（第2版）》基于apache的lucene3.0，从lucene核心、lucene应用、案例分析3个方面详细系统地介绍了lucene，包括认识lucene、建立索引、为应用程序添加搜索功能、高级搜索技术、扩展搜索、使用tika提取文本、lucene的高级扩展、使用其他编程语言访问lucene、lucene管理和性能调优等内容，最后还提供了三大经典成功案例，为读者展示了一个奇妙的搜索世界。　　《lucene实战（第2版）》适合于已具有一定java编程基本的读者，以及希望能够把强大的搜索功能添加到自己的应用程序中的开发人员。lucene实战（第2版）》对于从事搜索引擎工作的工程技术人员，以及在java平台上进行各类软件开发的人员和编程爱好者，也具有很好的学习参考价值。

2018-08-28

SparkSql技术

目录一：为什么sparkSQL？ 3 1.1：sparkSQL的发展历程 3 1.1.1：hive and shark 3 1.1.2：Shark和sparkSQL 4 1.2：sparkSQL的性能 5 1.2.1：内存列存储（In-Memory Columnar Storage） 6 1.2.2：字节码生成技术（bytecode generation，即CG） 6 1.2.3：scala代码优化 7 二：sparkSQL运行架构 8 2.1：Tree和Rule 9 2.1.1：Tree 10 2.1.2：Rule 10 2.2：sqlContext的运行过程 12 2.3：hiveContext的运行过程 14 2.4：catalyst优化器 16 三：sparkSQL组件之解析 17 3.1：LogicalPlan 18 3.2：SqlParser 20 3.1.1：解析过程 20 3.1.2：SqlParser 22 3.1.3：SqlLexical 25 3.1.4：query 26 3.3：Analyzer 26 3.4：Optimizer 28 3.5：SpankPlan 30 四：深入了解sparkSQL运行计划 30 4.1：hive/console安装 30 4.1.1：安装hive/cosole 30 4.1.2：hive/console原理 31 4.2：常用操作 32 4.2.1 查看查询的schema 32 4.2.2 查看查询的整个运行计划 33 4.2.3 查看查询的Unresolved LogicalPlan 33 4.2.4 查看查询的analyzed LogicalPlan 33 4.2.5 查看优化后的LogicalPlan 33 4.2.6 查看物理计划 33 4.2.7 查看RDD的转换过程 33 4.2.8 更多的操作 34 4.3：不同数据源的运行计划 34 4.3.1 json文件 34 4.3.2 parquet文件 35 4.3.3 hive数据 36 4.4：不同查询的运行计划 36 4.4.1 聚合查询 36 4.4.2 join操作 37 4.4.3 Distinct操作 37 4.5：查询的优化 38 4.5.1 CombineFilters 38 4.5.2 PushPredicateThroughProject 39 4.5.3 ConstantFolding 39 4.5.4 自定义优化 39 五：测试环境之搭建 40 5.1：虚拟集群的搭建（hadoop1、hadoop2、hadoop3） 41 5.1.1：hadoop2.2.0集群搭建 41 5.1.2：MySQL的安装 41 5.1.3：hive的安装 41 5.1.4：Spark1.1.0 Standalone集群搭建 42 5.2：客户端的搭建 42 5.3：文件数据准备工作 42 5.4：hive数据准备工作 43 六：sparkSQL之基础应用 43 6.1：sqlContext基础应用 44 6.1.1：RDD 44 6.1.2：parquet文件 46 6.1.3：json文件 46 6.2：hiveContext基础应用 47 6.3：混合使用 49 6.4：缓存之使用 50 6.5：DSL之使用 51 6.6：Tips 51 七：ThriftServer和CLI 51 7.1：令人惊讶的CLI 51 7.1.1 CLI配置 52 7.1.2 CLI命令参数 52 7.1.3 CLI使用 53 7.2：ThriftServer 53 7.2.1 ThriftServer配置 53 7.2.2 ThriftServer命令参数 54 7.2.3 ThriftServer使用 54 7.3：小结 56 八：sparkSQL之综合应用 57 8.1：店铺分类 57 8.2：PageRank 59 8.3：小结 61 九：sparkSQL之调优 61 9.1：并行性 62 9.2：高效的数据格式 62 9.3：内存的使用 63 9.4：合适的Task 64 9.5：其他的一些建议 64 十：总结 64

2018-08-16

TA关注的人

北京小辉