自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

北京小辉

学习是一种享受,也是一种痛苦,更是一种回忆!!!

  • 博客(34)
  • 资源 (14)
  • 问答 (1)
  • 收藏
  • 关注

转载 “独指男”修车谋生十余载 被称坚强哥

今年58岁的岳金,曾和女儿相依为命,后因意外他失去双脚和九根手指,为付医药费,他卖掉房子,将女儿寄养在邻居家,自己流浪街头。03年,他在吉林用七百元钱买了修车工具,开始修车。女儿想把他接过去住,但他坚持不去。“我得用自己的力量活下去。今年58岁吉林省永吉县农民岳金,曾因一次意外失去了双脚和九根手指。2003年,辗转来到吉林市后,岳金用身上仅有的七百元钱买了一些修车工具,依靠自己的劳动赚钱生存,这一干

2016-04-29 16:52:09 723

原创 详解Mysql数据导入到SQLServer数据库中

本地方法不仅限定于Mysql,也可以将Excel、Oracle数据导入到SQLServer中。

2016-04-28 22:30:48 15031 4

原创 Intellij IDEA15:安装和配置(svn)

目录1.Slik-Subversion-1.9.3-x64.msi安装2.TortoiseSVN-1.9.4.27285-x64-svn-1.9.4安装3.svn代码版本查看备注:Slik-Subversion-1.9.3-x64.msi这是为集成Intellij IDEA而安装,TortoiseSVN-1.9.4.27285-x64-svn-1.9.4是为本地查看SVN而安装。如果只安装Slik-

2016-04-28 11:36:42 11179 2

转载 java.io.File.deleteOnExit()-生成临时文件,删除临时文件

转载:http://www.tutorialspoint.com/java/io/file_deleteonexit.htmDescriptionThe java.io.File.deleteOnExit() method deletes the file or directory defined by the abstract path name when the virtual machine

2016-04-26 17:24:28 4182

原创 FLume:通过端口监控flume的运行程序

flume启动flume-ng agent -n agent1 -c conf -f /home/flume-1.6.0/conf/flume-zhuis-conf.properties -Dflume.root.logger=DEBUG,console -Dflume.monitoring.type=http -Dflume.monitoring.port=34545 >/h

2016-04-22 23:43:14 10773 1

原创 Linux下用户组、文件权限详解

用户组在linux中的每个用户必须属于一个组,不能独立于组外。在linux中每个文件有所有者、所在组、其它组的概念- 所有者- 所在组- 其它组- 改变用户所在的组 所有者一般为文件的创建者,谁创建了该文件,就天然的成为该文件的所有者用ls ‐ahl命令可以看到文件的所有者也可以使用chown 用户名 文件名来修改文件的所有者 文件所在组当某个用...

2016-04-22 23:29:40 1027

原创 linux:定时任务出现command not found

第一步查看/etc/profile: 第二步修改 /root/.bash_profile: 末尾添加命令的路径 第三步 shell脚本修改: 脚本中添加内容如下:#!/bin/bash. /etc/profile. /root/.bash_profile

2016-04-22 22:55:34 3904

原创 Linux 判断文件修改时间和系统时间差

#!/bin/bashtimestamp=`date +%s`filepath=/root/yuhui/ta-2016030307.logif [ -f $filepath ];thenecho "文件存在!路径为:$filepath"filetimestamp=`stat -c %Y $filepath`echo "文件最后修改时间戳:$filetimestamp"timecha=$[

2016-04-22 22:32:24 3771

原创 正则:分组取值

import java.util.regex.Matcher;import java.util.regex.Pattern;public class RegexUtil { public static void main(String[] args) { String str = "219.133.40.15 - - [20/Apr/2016:07:00:01 +0800]

2016-04-21 10:56:55 942

原创 HDFS命令行文件操作

Hadoop文件操作命令形式为hadoop fs -cmd 说明:cmd是具体的文件操作命令,是一组数目可变的参数。Hadoop最常用的文件操作命令,包括添加文件和目录、获取文件、删除文件等。1 添加文件和目录HDFS有一个默认工作目录/usr/$USER,其中$USER是你的登录用户名,作者的用户名是root。该目录不能自动创建,需要执行mkdir命令创建

2016-04-19 15:06:56 928

原创 Scala下划线“_”的用法

第一:初始化的时候。object Sample { var name: String = _ def main(args: Array[String]) { name = "hello world" println(name) }}在这里,name也可以声明为null,例:var name:String=null。这里的下划线和null的作用是一样的。第二:引入的时候。i

2016-04-17 17:28:12 2202

原创 Intellij IDEA15:建立Scala的Maven项目

在创建Scala的Maven之前要安装JavaJDK  、 Scala 的JDK  、 Maven配置,请参考下面Intellij IDEA15安装和配置 http://blog.csdn.net/silentwolfyh/article/details/51089878Intellij IDEA15的常用快捷键http://blog.csdn.net/sile

2016-04-17 11:34:03 8202

原创 Flume的使用问题及解决方案

在使用flume-ng时,踩了很多坑,现在来说一下,希望大家绕过坑,到达熟练使用flume的目的第一坑:不能正确解码文件,造成不能正确的重命名文件,抛出bug后,之后所有文件都不可以被flume收集,是一个比较严重的错,引起原因是flume使用NIO方式读取文件,将读取的文件以UTF-8的编码读取,在linux状态下,默认是按照GBK编码方式存储文件,所以读取时就会遇到字符长度不够问题,解决办

2016-04-17 08:20:41 4133

原创 Flume的可靠性保证:故障转移、负载均衡

Flume的一些组件(如Spooling Directory Source、File Channel)能够保证agent挂掉后不丢失数据。1、负载均衡1)Load balancing Sink Processorsource里的event流经channel,进入sink组,在sink组内部根据负载算法(round_robin、random)选择sink,后续可以选择不同机器上的agent实现负载均衡

2016-04-16 00:33:12 12498 2

原创 Flume:本地文件到Kafka

官网的配置 : https://flume.apache.org/FlumeUserGuide.html配置文件 cd /usr/app/flume1.6/conf vi flume-dirKakfa.properties#agent1 nameagent1.sources=source1agent1.sinks=sink1agent1.channels=channel1#Spoolin

2016-04-16 00:27:07 3562

原创 Flume:本地文件到HDFS

Flume下载地址apache-flume-1.6.0-bin.tar.gzhttp://pan.baidu.com/s/1o81nR8e s832apache-flume-1.5.2-bin.tar.gzhttp://pan.baidu.com/s/1bp6tXVL 4n4z官网https://flume.apache.org/download.html配置文件 cd /usr/app

2016-04-15 23:35:45 3245

原创 Flume入门教程

1、数据流模型   Flume的核心是把数据从数据源收集过来,再送到目的地。为了保证输送一定成功,在送到目的地之前,会先缓存数据,待数据真正到达目的地后,删除自己缓存的数据。   Flume传输的数据的基本单位是Event,如果是文本文件,通常是一行记录,这也是事务的基本单位。Event从Source,流向Channel,再到Sink,本身为一个byte数组,并可携带headers信息。E

2016-04-15 22:35:34 1958

原创 Flume安装

Flume下载地址 apache-flume-1.6.0-bin.tar.gz http://pan.baidu.com/s/1o81nR8e s832 apache-flume-1.5.2-bin.tar.gz http://pan.baidu.com/s/1bp6tXVL 4n4z 官网 https://flume.apache.org/downlo

2016-04-15 22:28:22 744

原创 Intellij IDEA2017.3:常用快捷键

首先:setting-->keymap-->eclipse使用Idea的目的就是为了编码完全脱离鼠标,虽然使用快捷键编码时很方便可以很长时间不碰鼠标,但windows系统查看文件、数据库什么的还是需要用到鼠标,这点相当郁闷,一直来的简单追求,脱离个鼠标而已;难道只能linux下编程可以完全抛弃鼠标吗?标记颜色的是我比较常用的,欢迎大家留言,我也会尽力更新完善我的M...

2016-04-12 20:20:36 4749 4

原创 kafka基本使用实战

Kafka路径/opt/cloudera/parcels/KAFKAKafka TopicName 查看 bin/kafka-topics.sh --list --zookeeper localhost:2181Kafka TopicName 删除bin/kafka-topics.sh --zookeeper localhost:2181 --topic

2016-04-11 13:57:50 1185

原创 英文歌曲:cross every river( 穿过每一条河 )

As I sit here all quiet 我静静地坐在这里      Wonder why we’re apart 想理清我们分手的原因      And the noise from the city 来自城市的喧闹      Cuts a hole thru the dark 却刺破了黑暗  As the nighttime is falling 当夜幕降临      An

2016-04-09 23:41:09 3212

原创 别太在意人走茶凉 物是人非

一杯茶,人走开了,自然慢慢地就凉了,冷了。     人的一生很长,会遇见很多人,会经历很多事,其中有酸有甜,有苦有辣。但无论经历过什么都不要迷失了自己的本心,抛弃自己的初衷和原则。     不管是朋友、同事、亲人,每天朝夕相处,自然交往频繁,关系密切。如若分开了,不会在每天见面了,联系逐渐的就慢慢变少了,关系也会逐渐变淡。时间一长很多人就不再联系了,并不是这个人对自己没用,更不

2016-04-04 18:47:42 2970 1

原创 java集合:ArrayList,Vector, LinkedList的存储性能和特性

ArrayList和Vector都是使用数组方式存储数据,此数组元素数大于实际存储的数据以便增加和插入元素,它们都允许直接按序号索引元素,但是插入元素要涉及数组元素移动等内存操作,所以索引数据快而插入数据慢,Vector由于使用了synchronized方法(线程安全),通常性能上较ArrayList差,而LinkedList使用双向链表实现存储,按序号索引数据需要进行前向或后向遍历,但是插入数据时

2016-04-04 13:11:27 1143

原创 java集合:ArrayList和Vector的区别

这两个类都实现了List接口(List接口继承了Collection接口),他们都是有序集合,即存储在这两个集合中的元素的位置都是有顺序的,相当于一种动态的数组,我们以后可以按位置索引号取出某个元素,并且其中的数据是允许重复的,这是HashSet之类的集合的最大不同处,HashSet之类的集合不可以按索引号去检索其中的元素,也不允许有重复的元素(本来题目问的与hashset没有任何关系,但为了说清楚

2016-04-04 13:10:05 664

原创 java集合:Collection 和 Collections的区别

Collection是集合类的上级接口,继承与他的接口主要有Set 和List. Collections是针对集合类的一个帮助类,他提供一系列静态方法实现对各种集合的搜索、排序、线程安全化等操作。

2016-04-04 12:54:20 749

原创 java集合:HashMap和Hashtable的区别

HashMap是Hashtable的轻量级实现(非线程安全的实现),他们都完成了Map接口,主要区别在于HashMap允许空(null)键值(key),由于非线程安全,在只有一个线程访问的情况下,效率要高于Hashtable。 HashMap允许将null作为一个entry的key或者value,而Hashtable不允许。 HashMap把Hashtable的contains方法去掉了,改成c

2016-04-04 12:52:24 553

原创 Java基础:String 和StringBuffer的区别

JAVA平台提供了两个类:String和StringBuffer,它们可以储存和操作字符串,即包含多个字符的字符数据。String类表示内容不可改变的字符串。而StringBuffer类表示内容可以被修改的字符串。当你知道字符数据要改变的时候你就可以使用StringBuffer。典型地,你可以使用StringBuffers来动态构造字符数据。另外,String实现了equa

2016-04-04 12:25:12 597

原创 Java基础:StringBuffer与StringBuilder的区别

StringBuffer安全(多线程)StringBuilder是线程不安全(单线程)StringBuffer和StringBuilder类都表示内容可以被修改的字符串,StringBuilder是线程不安全的,运行效率高,如果一个字符串变量是在方法里面定义,这种情况只可能有一个线程访问它,不存在不安全的因素了,则用StringBuilder。如果要在类里面定义成员变量

2016-04-04 12:22:08 616

原创 Java基础:序列化和反序列化

把对象转换为字节序列的过程称为对象的序列化。把字节序列恢复为对象的过程称为对象的反序列化。  对象的序列化主要有两种用途:  1) 把对象的字节序列永久地保存到硬盘上,通常存放在一个文件中;  2) 在网络上传送对象的字节序列。  在很多应用中,需要对某些对象进行序列化,让它们离开内存空间,入住物理硬盘,以便长期保存。比如最常见的是Web服务器中的Session对象,当有 10万用

2016-04-04 12:19:36 561

原创 hbase基本命令

进入hbase shell console$HBASE_HOME/bin/hbase shell如果有kerberos认证,需要事先使用相应的keytab进行一下认证(使用kinit命令),认证成功之后再使用hbase shell进入可以使用whoami命令可查看当前用户hbase(main)> whoami表的管理

2016-04-03 09:10:41 905

原创 Linux命令之大文件切分与合并

当面临将一个大文件进行切分时,linux的split命令是很好的选择。它包含多种参数,支持按行、大小进行切分。split命令的语法如下:split [--help][--version][-a ][-b][-C ][-l ][要切割的文件][输出文件名前缀]对应的参数描述如下:-a, --suffix-length=N    使用的后缀长度 (默认为 2

2016-04-01 09:30:36 715

原创 Linux常用命令

文本追加hadoop fs -get /user/yuhui/bi_CleanLog/part-r-00000 part-r-00000awk '{print }' part-r-00000 >> test.txt查看文件 awk 'END {print}' BIRoomTime20160229.txt

2016-04-01 09:20:36 554

原创 Linux中时间、循环、变量、判断

备注:在linux的shell中,等号左右不要留有空格年月日echo   `date -d "2 day ago" +%Y%m%d`       前天echo   `date -d yesterday +%Y%m%d`           昨天echo   `date -d "1 day ago" +%Y%m%d`       昨天

2016-04-01 09:16:24 1153

原创 Linux定时任务Crontab详解

第1列分钟1~59第2列小时1~23(0表示子夜)第3列日1~31第4列月1~12第5列星期0~6(0表示星期天)第6列要运行的命令定时任务打开命令[root@localhost ~]# crontable -l下面是crontab的格式:分 时 日 月 星期 要运行的命令这里有crontab文件条目的一些例子:

2016-04-01 09:12:04 592

Mysql教程所有数据.zip

博客【北京小辉】中Mysql教程的所有加载数据。余辉,中科院硕士研究生毕业,专注于大数据领域多年。曾工作于清华大学、京东,现从事大数据讲师一职。 博客地址:https://blog.csdn.net/silentwolfyh

2020-05-05

新概念2知识点.pdf

新概念2-课文名称和知识点,链接:https://blog.csdn.net/silentwolfyh/article/details/95083297

2019-09-06

crawlerBank.py

功能说明: 2、选择爬取 代码说明: 1、如果没有参数,则抓取所有银行数据 1.1、抓取过程中如果有一家银行有错误,会邮件报警,且不影响其余银行抓取 2、如果有参数(参数只能有一个)且参数正确,则抓取对应银行数据 3、如果有参数(参数只能有一个)且参数操作,则停止运行,弹出正确参数列表 4、15家银行的银行名称、 银行代码 、 银行URL如下所示: 备注: 001 属于页面数据源在内嵌Iframe 002 属于页面数据源为json 008 属于页面数据源为js 010 属于页面数据源为xml

2019-07-08

Hive的Udf函数进行数据脱敏

udf开发–做个简单脱敏udf保留前5位,后面全部替换成*****

2019-01-26

sqoop的数据导入

sqoop的数据导入

2019-01-16

SpringBoot的mvc三层以及增删改查页面

demo说明 1、这个demo是一个springboot的样例。 2、MVC三层都弄好了,增删改查功能都能用。 3、Test中有Service层的测试方法 参考地址:https://blog.csdn.net/silentwolfyh/article/details/84350966 参考地址:https://blog.csdn.net/silentwolfyh/article/details/83995563

2018-11-22

spring boot+mybatis整合

目录 一、整体结构图 二、Spring boot搭建 三、整合Mybatis(自动生成工具) 1、集成druid,使用连接池 2、自动生成工具依赖和插件 3、最终的pom.xml文件: 4、在application.yml中添加数据源、Mybatis的实体和配置文件位置。 5、自动生成代码配置文件。 6、建立数据库和表 7、生产Dao层和entity类 8、建立controller层类 9、建立service层类 10、启动之后结果展示 --------------------- 作者:silentwolfyh 来源:CSDN 原文:https://blog.csdn.net/silentwolfyh/article/details/83995563 版权声明:本文为博主原创文章,转载请附上博文链接!

2018-11-12

Lucene实战(第2版).pdf

《lucene实战(第2版)》基于apache的lucene3.0,从lucene核心、lucene应用、案例分析3个方面详细系统地介绍了lucene,包括认识lucene、建立索引、为应用程序添加搜索功能、高级搜索技术、扩展搜索、使用tika提取文本、lucene的高级扩展、使用其他编程语言访问lucene、lucene管理和性能调优等内容,最后还提供了三大经典成功案例,为读者展示了一个奇妙的搜索世界。   《lucene实战(第2版)》适合于已具有一定java编程基本的读者,以及希望能够把强大的搜索功能添加到自己的应用程序中的开发人员。lucene实战(第2版)》对于从事搜索引擎工作的工程技术人员,以及在java平台上进行各类软件开发的人员和编程爱好者,也具有很好的学习参考价值。

2018-08-28

SparkSql技术

目录 一:为什么sparkSQL? 3 1.1:sparkSQL的发展历程 3 1.1.1:hive and shark 3 1.1.2:Shark和sparkSQL 4 1.2:sparkSQL的性能 5 1.2.1:内存列存储(In-Memory Columnar Storage) 6 1.2.2:字节码生成技术(bytecode generation,即CG) 6 1.2.3:scala代码优化 7 二:sparkSQL运行架构 8 2.1:Tree和Rule 9 2.1.1:Tree 10 2.1.2:Rule 10 2.2:sqlContext的运行过程 12 2.3:hiveContext的运行过程 14 2.4:catalyst优化器 16 三:sparkSQL组件之解析 17 3.1:LogicalPlan 18 3.2:SqlParser 20 3.1.1:解析过程 20 3.1.2:SqlParser 22 3.1.3:SqlLexical 25 3.1.4:query 26 3.3:Analyzer 26 3.4:Optimizer 28 3.5:SpankPlan 30 四:深入了解sparkSQL运行计划 30 4.1:hive/console安装 30 4.1.1:安装hive/cosole 30 4.1.2:hive/console原理 31 4.2:常用操作 32 4.2.1 查看查询的schema 32 4.2.2 查看查询的整个运行计划 33 4.2.3 查看查询的Unresolved LogicalPlan 33 4.2.4 查看查询的analyzed LogicalPlan 33 4.2.5 查看优化后的LogicalPlan 33 4.2.6 查看物理计划 33 4.2.7 查看RDD的转换过程 33 4.2.8 更多的操作 34 4.3:不同数据源的运行计划 34 4.3.1 json文件 34 4.3.2 parquet文件 35 4.3.3 hive数据 36 4.4:不同查询的运行计划 36 4.4.1 聚合查询 36 4.4.2 join操作 37 4.4.3 Distinct操作 37 4.5:查询的优化 38 4.5.1 CombineFilters 38 4.5.2 PushPredicateThroughProject 39 4.5.3 ConstantFolding 39 4.5.4 自定义优化 39 五:测试环境之搭建 40 5.1:虚拟集群的搭建(hadoop1、hadoop2、hadoop3) 41 5.1.1:hadoop2.2.0集群搭建 41 5.1.2:MySQL的安装 41 5.1.3:hive的安装 41 5.1.4:Spark1.1.0 Standalone集群搭建 42 5.2:客户端的搭建 42 5.3:文件数据准备工作 42 5.4:hive数据准备工作 43 六:sparkSQL之基础应用 43 6.1:sqlContext基础应用 44 6.1.1:RDD 44 6.1.2:parquet文件 46 6.1.3:json文件 46 6.2:hiveContext基础应用 47 6.3:混合使用 49 6.4:缓存之使用 50 6.5:DSL之使用 51 6.6:Tips 51 七:ThriftServer和CLI 51 7.1:令人惊讶的CLI 51 7.1.1 CLI配置 52 7.1.2 CLI命令参数 52 7.1.3 CLI使用 53 7.2:ThriftServer 53 7.2.1 ThriftServer配置 53 7.2.2 ThriftServer命令参数 54 7.2.3 ThriftServer使用 54 7.3:小结 56 八:sparkSQL之综合应用 57 8.1:店铺分类 57 8.2:PageRank 59 8.3:小结 61 九:sparkSQL之调优 61 9.1:并行性 62 9.2: 高效的数据格式 62 9.3:内存的使用 63 9.4:合适的Task 64 9.5:其他的一些建议 64 十:总结 64

2018-08-16

MacBook Pro的快捷键

目录: 一、开机相关命令快捷键 , 二、常用系统快捷键 , 三、窗口操作 , 四、Finder , 五、屏幕截图

2018-08-16

hadoop-Apache2.7.3+Spark2.0集群搭建

包括了:Hadoop2.7.3、Spark2.0、Zookeeper3.4.8、Hive、Hbase、Kafka2.10、Flume的环境搭建

2018-08-16

SqlServer驱动包

SqlServer驱动包,代码请关注http://blog.csdn.net/silentwolfyh

2015-08-30

silentwolf

让你在最短时间学会ASP.NET 通俗易懂

2010-05-19

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除