北京小辉-CSDN博客

原创区块链与大数据究竟有着怎样的关系？

今天，很多人还没弄懂大数据，区块链又来了。区块链与大数据究竟有着怎样的关系?看完本文的五大观点，你会认同赛智时代的这个结论：区块链让大数据汹涌而来。马云说过，这是一个变化的年代，当很多人还没有搞懂PC互联网的时候，移动互联网来了，当很多人还没弄懂移动互联网，大数据来了。而今天，很多人还没弄懂大数据，区块链又来了。区块链与大数据究竟有着怎样的关系?看完本文的五大观点，你会认同赛智时代的这

2017-04-06 10:41:44 2714

原创 “区块链”究竟是什么？

最近区块链比较火。最早我是听一个朋友提起的，因为我对科技驱动的东西一直很感兴趣，所以也做了一些了解。简单讲，区块链就是一个去中心化的信任机制。过去区块链主要应用在比特币上，一直到最近半年，区块链已经渐渐开始有了一些其他应用，特别是在金融领域，所以不断有人问我：“浩哥，你给我们讲讲区块链吧”。我今天给大家找来一篇文章，偏科普性质，不需要大家对技术和金融有任何背景，希望对大家有所帮助。

2017-04-06 10:37:10 2724

原创 Mysql 实用知识

目录：一、MySQL的安装与配置 1）MySQL的安装与配置–安装RPM包 2）MySQL的安装与配置–安装二进制包 3）MySQL的安装与配置–安装源码包二、用户与权限 1）用户与权限—用户管理 2）用户与权限—权限表 3）用户与权限—权限管理三、表类型（存储引擎）介绍 1）存储引擎查看 2）存储引擎

2017-03-30 17:09:29 764

原创 ElasticSearch查询

目录：一、基本概念二、数据生成三、查询方法 1)Match 匹配查询 2)Multi_match 多匹配查询 3)Fuzzy Query 模糊查询 4)Wildcard Query(通配符查询) 5)Match Phrase (短语匹配) 6)Term 查询 7)Sorted 查询 8)排序分页查询

2017-03-30 16:25:14 1618

原创 Druid索引过程详解

目录：一、结构介绍 1）Historical Node 2）Broker Node 3）Coordinator Node 4）Real-Time Node 5）Indexing Service Node二、Druid索引的上游数据转换的过程 1）原始数据 2）roll up（上卷）三、Segment简要介绍四、索引核

2017-03-30 15:59:24 6516

17/03/29 09:07:23 WARN resourcepool.BasicResourcePool: com.mchange.v2.resourcepool.BasicResourcePool@67d8bcd1 -- an attempt to checkout a resource was interrupted, and the pool is still live: some othe

2017-03-29 09:33:14 2519

原创 Druid的发送数据和查询数据

目录：1、需求2、参考3、数据和配置4、展现5、注意事项————————————————————————————–1、需求参考官网，使用Linux向Druid发送数据和查询数据2、参考数据来源–Formatting the Data http://druid.io/docs/0.9.2/ingestion/data-formats.html 配置来源 : 使用druid的默认配置文件 /hom

2017-03-17 16:56:18 6369

原创用shell脚本监控进程是否存在不存在则启动的实例

用shell脚本监控进程是否存在不存在则启动教程_百度经验 http://jingyan.baidu.com/article/59a015e3a3a404f795886542.htmlcrontab 参考： http://blog.csdn.net/silentwolfyh/article/details/51033973用shell脚本监控进程是否存在不存在则启动的实例，先上代码干货：#!

2017-03-17 09:41:36 1670

原创 Scala的安装

安装软件安装路径设置变量环境安装路径验证

2017-03-15 16:51:27 601 2

原创 Druid：Loading from Kafka的坑

出现的问题： 1、创建文件1万次 2、HTTP400 3、几个配置文件加上druid.host=tagtic-master，druid在哪一台节点就加那台的hostdruid-0.9.2/conf/druid/broker/runtime.propertiesdruid-0.9.2/conf/druid/coordinator/runtime.properties druid-0.9.2/

2017-03-14 08:59:24 3138

原创 CDH的Flume配置Adding multiple flows in an agent

注意事项：1）需求：在CDH的Flume上面配置2个flows，2个flows的监控文件路径不一样，且将监控的文件发送到不同kafka中，最后删除读取完的文件http://flume.apache.org/FlumeUserGuide.html#adding-multiple-flows-in-an-agent http://flume.apache.org/FlumeUserGuide.html

2017-03-06 13:07:26 1283

原创 Java开发环境搭建

目录：(一) Java安装(二) Eclipse安装(三) Eclipse的Java安装(四) Maven安装 1) 工具下载： 2) maven配置 3) 配置完成 4) Eclipse加载Maven 5) 设置maven仓库位置：(五) Maven项目创建(六) 测试————————

2017-03-05 20:47:41 729

原创 CDH启动和日志和组件lib包路径查看

目录：cdh集群启动cdh集群Linux日志查看cdh集群管理界面日志查看——————————————————————————————————cdh集群启动备注：公司CDH集群为CDH-5.7.1版本1）登录Master机器执行命令： /opt/cm-5.7.1/etc/init.d/cloudera-scm-server start2）登录集群所有agent机器执行命令： /opt/c

2017-03-02 12:58:56 11495

原创 inotify监控Nginx目录且将Log文件放入Flume监控文件中

目录1、需求2、框架步鄹3、脚本和Nginx日志展示4、运行结果 1)日志展示和移动数据到监控目录 2) 启动监控脚本、查看运行前后、查看监控日志、查看结果路径数据—————————————————————————————————1、需求通过inotify监控Nginx目录，将生产Log文件放入Flume监控文件中2、框架步鄹3、脚本和Nginx日志展示备注：*.tar.gz

2017-03-01 13:06:43 1354

原创 Kafka获取文件源码跟踪

目录：1、执行步鄹2、结果展现学习kafka提前参考：Kafka文件的存储机制http://blog.csdn.net/silentwolfyh/article/details/55095146Kafka：无丢失提取kafka的值，详解kafka的消费过程http://blog.csdn.net/silentwolfyh/article/details/54891764———————————————

2017-02-16 12:47:55 1054

原创 Intellij IDEA 解除（去除）SVN关联

安装插件1、打开Intellij中工具栏File的setting（ctrl+alt+s），选择plugins，在右边搜索框输入“SVN”，搜索。选择“SVN disconnect”。2、安装此插件，重启intellij idea3、插件使用点击菜单栏中的VCS，在下拉菜单中选择SVN disconnect，完成SVN版本管理移除。

2017-02-15 10:14:05 31315 1

原创 HttpServer发送数据到kafka

目录1、需求2、框架结构图和步鄹图3、代码结构4、代码展现———————————————————————-1、需求1.1、解析路径，将路径的最后一个字符串作为Appkey； 1.2、数据缓存，当Kafka无法正常访问时在本地Cache目录缓存数据； 1.3、安全验证，对请求的appkey进行合法性验证（签名验证待定）； 1.4、自动更新appkey列表，每间隔一段时间获取一次最新的appkey

2017-02-15 09:53:16 5340 2

原创 Kafka文件的存储机制

目录：1、Kafka是什么2、前言3、Kafka文件存储机制–实际运行效果4、总结————————————————————————————————–1、Kafka是什么 Kafka是最初由Linkedin公司开发，是一个分布式、分区的、多副本的、多订阅者，基于zookeeper协调的分布式日志系统(也可以当做MQ系统)，常见可以用于web/nginx日志、访问日志，消息服务等等，Linkedin

2017-02-14 09:58:03 3741

原创 Linux下大数据常用执行应用脚本

读取HDFS文件大小#!/bin/bashpath=$1dir=$(hadoop fs -ls $path | awk '{print $8}')for i in $dirdo hdfs dfs -du -s -h $idone 读取Linux文件大小#!/bin/bashpath=$1dir=$(ls -l $path |awk '/^d/ {print $NF}')for i in

2017-02-13 09:44:12 939

原创 IntelliJ IDEA打开多个Maven的module且相互调用代码

目录1、需求2、注意事项（6点非常重要）3、建立Project和建立module4、项目之前的依赖关系5、代码展示6、项目中POM依赖展示7、运行结果展示—————————————————————————————————————1、需求1、IntelliJ IDEA打开多个项目 2、每个同学开发一个项目，相互之前独立不影响 3、通过一个入口可以调用所有项目类、方法、属性，达到同时开发且检测代码

2017-02-10 14:23:12 35086

原创 SparkStreaming无丢失读取Kafka且转为DataFrame

目录1、需求2、步鄹3、日志格式4、代码展示5、运行结果展示6、Kafka Manager 和 Zookeeper展示———————————————————————————————1、需求1、SparkStreaming读取Kafka数据，且将offset存储到Zookeeper中 2、控制每次读取数据的最大值 3、将读取出来的数据，转为DataFrame2、步鄹1、通过zkClient.rea

2017-02-09 10:00:30 6490 4

原创大数据组项目文档整理方案

大数据团队项目文档整理方案一、项目文档规范说明1. 文档结构说明2. 案例说明二、项目文档结构说明1. 文档结构步鄹：2. 案例如下：———————————————————————————————————一、项目文档规范说明1. 文档结构说明1) 流程图使用Visio画图 2) 其余资料使用Mar

2017-02-09 09:04:47 5058

原创 Phoenix安装、连接Hbase、配置

目录：一、Phoenix安装二、Phoenix安装及连接Hbase三、phoenix 配置—————————————————————————————一、Phoenix安装1、首先去官网下载Phoenix的压缩包下载地址：http://mirror.bit.edu.cn/apache/phoenix/ 由于我们系统的Hbase版本是1.1版本的，故下载4.7版本的Phoenix。

2017-02-06 16:20:02 8314 1

原创 CDH集群迁移

目录一：集群搭建二：hdfs数据迁移三：kafka节点添加四：hbase数据迁移———————————————————————————————————–一：集群搭建参考：http://blog.csdn.net/silentwolfyh/article/details/54893826二：hdfs数据迁移准备工作 1、新集群搭建完毕 2、新老机器所有yarn节点可以ping通 3、命令，在老集

2017-02-06 16:06:09 4346

原创 CDH5.14安装指南和维护(亲自搭建好多次)

目录：1、安装文件准备2、系统环境准备3、cloudera manager 调优4、Cloudera Manager安装5、CDH安装6、常用工具地址7、一些常见问题————————————————————————————————————–1、安装文件准备CDH下载地址：http://archive.cloudera.com/cdh5/parcels/latest/下载操作系统对应的版本：1．CDH

2017-02-06 15:56:54 10463 13

原创 Redis集群搭建步鄹

Redis cluster set upauthor: chenlei leibositeCluster architecture：steps:Download redis source file：wget http://download.redis.io/releases/redis-3.2.4.tar.gzUnzip：tar zxvf redis-3.2.4.tar.gzCompile：

2017-02-06 14:52:23 908

原创 Kafka：无丢失提取kafka的值，详解kafka的消费过程

目录：1、需求2、代码步鄹3、代码展现4、pom.xml文件5、结果展现——————————————————————————————————–1、需求前提：将org.apache.spark.streaming.kafka.KafkaCluster这个类抽出来变成KafkaClusterHelper * 需求：* 1、将kafka中的数据无丢失提取，且存到本地 2、详解Kafka读取数据步鄹

2017-02-06 13:05:53 6428

原创 Kafka：Kafka的生产和消费（Java版本）

目录：1、代码2、POM3、展示—————————————————————————————1、代码package com.donews.data.kafkatest;import java.io.BufferedReader;import java.io.FileReader;import java.util.Properties; import java.util.concurrent.T

2017-01-23 16:08:57 4167 1

原创设计模式：懒汉式和饿汉式

下面对单例模式的懒汉式与饿汉式进行简单介绍： 1、饿汉式：在程序启动或单件模式类被加载的时候，单件模式实例就已经被创建。 2、懒汉式：当程序第一次访问单件模式实例时才进行创建。如何选择：如果单例模式实例在系统中经常会被用到，饿汉式是一个不错的选择。反之如果单例模式在系统中会很少用到或者几乎不会用到，那么懒汉式是一个不错的选择。饿汉式和懒汉式代码：package Single;public

2017-01-23 10:36:13 1456

原创 Linux：RSync实现文件备份同步图解及代码

目录：1、需求2、图解3、代码备注：参考RSync命令 http://blog.csdn.net/silentwolfyh/article/details/546139411、需求：将Nginx文件从采集服务器同步到CDH服务器，最后放入Flume监控目录2、图解3、代码[root@xiaohui nginx_log]# cat get_file_test.shcd /home/nginx_l

2017-01-19 11:27:31 1021

原创 linux：rsync命令详细整理

前提： rsync是一个功能非常强大的工具，其命令也有很多功能特色选项，我们下面就对它的选项一一详细说明，需要了解的朋友可以参考下在对rsync服务器配置结束以后，下一步就需要在客户端发出rsync命令来实现将服务器端的文件备份到客户端来。rsync是一个功能非常强大的工具，其命令也有很多功能特色选项，我们下面就对它的选项一一进行分析说明。 Rsync的命令格式可以为以

2017-01-19 11:22:01 808

原创微信统计数据的获取及存储

目录：1、需求：2、开发前期准备：3、代码结构：4、Mysql数据表设计：5、代码展示：6、结果展示：1、需求：熟悉获取微信统计数据的接口，并设计数据获取方案，微信数据接口文档地址：https://mp.weixin.qq.com/wiki/15/88726a421bfc54654a3095821c3ca3bb.html 2、开发前期准备：1、ACCESS_TOKEN：获取微信唯一标识ACCESS

2017-01-17 10:04:58 7038

原创 win7上python2.7连接mysql数据库

一：安装MySQL-python驱动pip install mysql二：连接到MySQL服务器的test数据库#!/usr/bin/python# -*- coding: UTF-8 -*-import mysql.connectorif __name__ == "__main__": # 打开数据库连接 conn=mysql.connector.connect(host='

2017-01-13 13:55:42 1461

原创 Linux：用sed命令在文本的行尾或行首添加字符

用sed命令在行首或行尾添加字符的命令有以下几种：假设处理的文本为test.file 在每行的头添加字符，比如”HEAD”，命令如下： sed ‘s/^/HEAD&/g’ test.file在每行的行尾添加字符，比如“TAIL”，命令如下： sed ‘s/$/&TAIL/g’ test.file 运行结果如下图：几点说明： 1.”^”代表行首，””代表行尾2.′s/”代表行尾

2017-01-09 20:01:42 4354

原创 Linux:awk命令详解

来源：http://www.cnblogs.com/ggjucheng/archive/2012/08/18/2645321.html史上最好用的免费翻蔷利器简介awk是一个强大的文本分析工具，相对于grep的查找，sed的编辑，awk在其对数据分析并生成报告时，显得尤为强大。简单来说awk就是把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行各种分析处理。awk有3个不同版本: aw

2017-01-09 19:56:16 708

原创 MongoDB高可用集群+MMS集群监控搭建

目录：一、集群的三个组件：二、集群架构图：三、集群的IP及端口规划：四、集群在LINUX上的目录规划：五、开始搭建集群：六、集群监控（mongodb-mms）备注：mongodb学习资料 http://www.runoob.com/mongodb/mongodb-tutorial.html————————————————————————————————————

2017-01-06 12:51:15 10634 4

原创动态正则匹配

需求：1、写一个动态正则；2、只要写出日志的Schma就可以获取到日志的正则。package com.donews.utilimport java.util.regex.Patternimport scala.collection.mutable.ArrayBuffer/** * Created by yuhui on 2016/8/5. *//***列子： www.donew

2017-01-05 13:13:40 1121

原创 kakfa的维护：Brock停止

错误1：kakfa的Brock停止org.apache.spark.SparkException: Couldn’t find leader offsets for Set()原因：1、TopicName复制数Replication为1； 2、TopicName的Partitions一部分落在Brock上面，而这个Brock没有复制数，导致Partitions丢失

2017-01-04 13:26:18 1225

原创 javaweb的request的get和post方法

package com.donews.data.httpkafka;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.io.PrintWriter;import java.net.URL;import java.net.URLConne

2017-01-03 17:05:14 929

原创 CDH配置启动flume

目录：一、如何使用flume二、进入配置管理三、关于配置文件———————————————————————————-请提前参考我的Flume博客：http://blog.csdn.net/silentwolfyh/article/category/6186343一、如何使用flume在CDH界面添加服务，选择flume之后选择主机，flume服务就启动了，下面就是配置参数二、进入配置管理三、关于配置

2017-01-03 16:58:18 9900 4

Mysql教程所有数据.zip

博客【北京小辉】中Mysql教程的所有加载数据。余辉，中科院硕士研究生毕业，专注于大数据领域多年。曾工作于清华大学、京东，现从事大数据讲师一职。博客地址：https://blog.csdn.net/silentwolfyh

2020-05-05

新概念2知识点.pdf

新概念2-课文名称和知识点，链接：https://blog.csdn.net/silentwolfyh/article/details/95083297

2019-09-06

crawlerBank.py

功能说明： 2、选择爬取代码说明： 1、如果没有参数，则抓取所有银行数据 1.1、抓取过程中如果有一家银行有错误，会邮件报警，且不影响其余银行抓取 2、如果有参数（参数只能有一个）且参数正确，则抓取对应银行数据 3、如果有参数（参数只能有一个）且参数操作，则停止运行，弹出正确参数列表 4、15家银行的银行名称、银行代码、银行URL如下所示：备注： 001 属于页面数据源在内嵌Iframe 002 属于页面数据源为json 008 属于页面数据源为js 010 属于页面数据源为xml

2019-07-08

Hive的Udf函数进行数据脱敏

udf开发–做个简单脱敏udf保留前5位，后面全部替换成*****

2019-01-26

sqoop的数据导入

2019-01-16

SpringBoot的mvc三层以及增删改查页面

demo说明 1、这个demo是一个springboot的样例。 2、MVC三层都弄好了,增删改查功能都能用。 3、Test中有Service层的测试方法参考地址:https://blog.csdn.net/silentwolfyh/article/details/84350966 参考地址:https://blog.csdn.net/silentwolfyh/article/details/83995563

2018-11-22

spring boot+mybatis整合

目录一、整体结构图二、Spring boot搭建三、整合Mybatis(自动生成工具) 1、集成druid，使用连接池 2、自动生成工具依赖和插件 3、最终的pom.xml文件： 4、在application.yml中添加数据源、Mybatis的实体和配置文件位置。 5、自动生成代码配置文件。 6、建立数据库和表 7、生产Dao层和entity类 8、建立controller层类 9、建立service层类 10、启动之后结果展示 --------------------- 作者：silentwolfyh 来源：CSDN 原文：https://blog.csdn.net/silentwolfyh/article/details/83995563 版权声明：本文为博主原创文章，转载请附上博文链接！

2018-11-12

Lucene实战(第2版).pdf

《lucene实战（第2版）》基于apache的lucene3.0，从lucene核心、lucene应用、案例分析3个方面详细系统地介绍了lucene，包括认识lucene、建立索引、为应用程序添加搜索功能、高级搜索技术、扩展搜索、使用tika提取文本、lucene的高级扩展、使用其他编程语言访问lucene、lucene管理和性能调优等内容，最后还提供了三大经典成功案例，为读者展示了一个奇妙的搜索世界。　　《lucene实战（第2版）》适合于已具有一定java编程基本的读者，以及希望能够把强大的搜索功能添加到自己的应用程序中的开发人员。lucene实战（第2版）》对于从事搜索引擎工作的工程技术人员，以及在java平台上进行各类软件开发的人员和编程爱好者，也具有很好的学习参考价值。

2018-08-28

SparkSql技术

目录一：为什么sparkSQL？ 3 1.1：sparkSQL的发展历程 3 1.1.1：hive and shark 3 1.1.2：Shark和sparkSQL 4 1.2：sparkSQL的性能 5 1.2.1：内存列存储（In-Memory Columnar Storage） 6 1.2.2：字节码生成技术（bytecode generation，即CG） 6 1.2.3：scala代码优化 7 二：sparkSQL运行架构 8 2.1：Tree和Rule 9 2.1.1：Tree 10 2.1.2：Rule 10 2.2：sqlContext的运行过程 12 2.3：hiveContext的运行过程 14 2.4：catalyst优化器 16 三：sparkSQL组件之解析 17 3.1：LogicalPlan 18 3.2：SqlParser 20 3.1.1：解析过程 20 3.1.2：SqlParser 22 3.1.3：SqlLexical 25 3.1.4：query 26 3.3：Analyzer 26 3.4：Optimizer 28 3.5：SpankPlan 30 四：深入了解sparkSQL运行计划 30 4.1：hive/console安装 30 4.1.1：安装hive/cosole 30 4.1.2：hive/console原理 31 4.2：常用操作 32 4.2.1 查看查询的schema 32 4.2.2 查看查询的整个运行计划 33 4.2.3 查看查询的Unresolved LogicalPlan 33 4.2.4 查看查询的analyzed LogicalPlan 33 4.2.5 查看优化后的LogicalPlan 33 4.2.6 查看物理计划 33 4.2.7 查看RDD的转换过程 33 4.2.8 更多的操作 34 4.3：不同数据源的运行计划 34 4.3.1 json文件 34 4.3.2 parquet文件 35 4.3.3 hive数据 36 4.4：不同查询的运行计划 36 4.4.1 聚合查询 36 4.4.2 join操作 37 4.4.3 Distinct操作 37 4.5：查询的优化 38 4.5.1 CombineFilters 38 4.5.2 PushPredicateThroughProject 39 4.5.3 ConstantFolding 39 4.5.4 自定义优化 39 五：测试环境之搭建 40 5.1：虚拟集群的搭建（hadoop1、hadoop2、hadoop3） 41 5.1.1：hadoop2.2.0集群搭建 41 5.1.2：MySQL的安装 41 5.1.3：hive的安装 41 5.1.4：Spark1.1.0 Standalone集群搭建 42 5.2：客户端的搭建 42 5.3：文件数据准备工作 42 5.4：hive数据准备工作 43 六：sparkSQL之基础应用 43 6.1：sqlContext基础应用 44 6.1.1：RDD 44 6.1.2：parquet文件 46 6.1.3：json文件 46 6.2：hiveContext基础应用 47 6.3：混合使用 49 6.4：缓存之使用 50 6.5：DSL之使用 51 6.6：Tips 51 七：ThriftServer和CLI 51 7.1：令人惊讶的CLI 51 7.1.1 CLI配置 52 7.1.2 CLI命令参数 52 7.1.3 CLI使用 53 7.2：ThriftServer 53 7.2.1 ThriftServer配置 53 7.2.2 ThriftServer命令参数 54 7.2.3 ThriftServer使用 54 7.3：小结 56 八：sparkSQL之综合应用 57 8.1：店铺分类 57 8.2：PageRank 59 8.3：小结 61 九：sparkSQL之调优 61 9.1：并行性 62 9.2：高效的数据格式 62 9.3：内存的使用 63 9.4：合适的Task 64 9.5：其他的一些建议 64 十：总结 64

2018-08-16

TA关注的人

Mysql教程所有数据.zip

新概念2知识点.pdf

crawlerBank.py

Hive的Udf函数进行数据脱敏

sqoop的数据导入

SpringBoot的mvc三层以及增删改查页面

spring boot+mybatis整合

Lucene实战(第2版).pdf

SparkSql技术

MacBook Pro的快捷键

hadoop-Apache2.7.3+Spark2.0集群搭建

SqlServer驱动包

silentwolf

微博对一条微博进行评论API

调用JEECG微博发帖API异常

mac版本idea中路径颜色设置