2017年08月_北京小辉

10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创我的新书《Hadoop+Spark生态系统操作与实战指南》已经上架

致青春赶在儿子1岁生日之际，赶在我30岁告别之际，我撰写《Hadoop+Spark生态系统操作与实战指南》一书，作为我儿子的生日礼物。我借【时光之手】合上我30年青春的最后一页，我借【此书】记录下我的青春，我借【清华大学出版社】将我青春永远留在【清华大学】。我的新书《Hadoop+Spark生态系统操作与实战指南》，清华大学出版社，已经在京东、天猫、当当

2017-08-07 20:22:59 8107 28

原创微信群中报数从【1】到【30】

目录：1、游戏名称及规则2、作者的开心话3、游戏案例4、游戏总结——————————————————————————————————————1、游戏名称及规则游戏名称：微信群中报数从【1】到【30】游戏规则： 1、单人单次按照次序报数，从【1】到【30】； 2、报数期间数字只能一个一个递增出现，不能出现重复，前跳，后跳数字的情况； 3、报数期间由一个人增加干扰【干扰项不限于发图片，都乐群员

2017-08-25 12:29:56 8652

原创数据结构8种排序时间和空间复杂度对比

算法复杂度分析 http://blog.csdn.net/silentwolfyh/article/details/73162862插入排序–Java版 http://blog.csdn.net/silentwolfyh/article/details/73187088希尔排序–Java版 http://blog.csdn.net/silentwolfyh/article/details

2017-08-17 15:50:48 4724

原创快速排序 --Java版本

目录1、快速排序解释2、快速排序大白话（认真看）3、代码展示4、结果展示——————————————————————————————-1、快速排序解释快速排序（Quicksort）是对冒泡排序的一种改进。快速排序由C. A. R. Hoare在1962年提出。它的基本思想是：通过一趟排序将要排序的数据分割成独立的两部分，其中一部分的所有数据都比另外一部分的所有数据都要

2017-08-15 14:22:06 3123 2

原创归并排序 --Java版本

目录1、需求2、图解3、代码展示及步骤解说4、结果展示——————————————————————————————-1、需求归并排序 –Java版本归并排序（MERGE-SORT）是建立在归并操作上的一种有效的排序算法,该算法是采用分治法（Divide and Conquer）的一个非常典型的应用。将已有序的子序列合并，得到完全有序的序列；即先使每个子序列有序，再使子

2017-08-14 16:48:56 1815

原创希尔排序--Java版

目录1、介绍2、步骤解说3、图解4、代码展示5、结果展示———————————————————————————1、介绍希尔排序(Shell Sort)是插入排序的一种。也称缩小增量排序，是直接插入排序算法的一种更高效的改进版本。希尔排序是非稳定排序算法。该方法因DL．Shell于1959年提出而得名。希尔排序是把记录按下标的一定增量分组，对每组使用直接插入排序算法排序

2017-08-14 15:24:28 1156 2

原创大顶堆积排序--Java版

目录1、介绍2、步骤解说3、图解4、代码展示5、结果展示————————————————————————————–1、介绍提前参考： Java实现大顶堆和小顶堆 http://blog.csdn.net/silentwolfyh/article/details/77099258介绍：先将数组按照大顶堆排序，接着一个一个移除【顶节点】2、步骤解说1、看明白Java实现大顶堆和小顶堆 2、在“

2017-08-11 17:14:22 1347 2

原创大顶堆和小顶堆--Java版

目录：1、前期参考2、大顶堆原理3、小顶堆原理4、大顶堆和小顶堆对比图5、大顶堆代码6、执行结果————————————————————————————-1、前期参考使用一维数组存储二叉树 http://blog.csdn.net/silentwolfyh/article/details/76946539 Java链表来存储二叉树和（前中后序）遍历二叉树 http://blog.csdn

2017-08-11 16:01:04 11228 3

写了几年的技术博客了，第一次上CSDN的博客首页第一次上榜时间为【2017年8月9号】，结束时间为【2017年8月25号】，地址为：http://blog.csdn.net 第二次上榜时间为【2017年9月28号】，结束时间为【2017年10月11号】，地址为：http://blog.csdn.net2017年8月9号2017年8月10号2017年8月11号2017年8月12号2017年8月13号

2017-08-09 15:09:11 1869 14

原创使用一维数组存储二叉树--Java版

package com.datastructure;/*** * 需求：使用一维数组存储二叉树 * 步骤： * 1、查看原始数据的个数（8个），从而制定二叉树层级（4层），得到满二叉树节点个数（15个） * 2、二叉树节点（15个）为一维数组，全设置为0 * 3、循环遍历原始数据，第一个值为树根 * 4、第二个值与父节点比较，如果大于树根，则往右子树比较，如果数组内的值小于或等于树根，则

2017-08-09 08:51:52 10323 1

原创 python批量kill某一个进程

python批量kill某一个进程#!/usr/bin/python# -*- coding: UTF-8 -*-import osimport syspyName = sys.argv[0]pyPath = sys.argv[1]print "脚本名：", pyName , "参数名：", pyPathlines = os.popen('ps -ef | grep %s' % py

2017-08-07 16:42:51 3540

原创 win7上python2.7连接mysql数据库02

win7上python2.7连接mysql数据库，配置写到配置文件中，本例子找那个包括： 1、单条插入 2、批量插入 3、事务处理myapp.conf# database source[downdb]host = XXX.XXX.XXX.XXXport = 3306user = funnelpass = 1qaz@<2wsxdbName = user_privileges[ond

2017-08-07 10:06:18 936

原创使用python监控HDFS文件的增量【优化中】

目录1、需求和步骤2、项目结构3、项目代码 3.1建表语句 hdfs_Ctreate_table 3.2删除文件记录 hdfs_delete_file_record.py 3.3文件路径的小时监控 hdfs_path_Monitor.py 3.4文件路径的天监控 hdfs_path_Monitor_day.py 3.5文件大小记录 h

2017-08-03 17:55:02 4724

Mysql教程所有数据.zip

博客【北京小辉】中Mysql教程的所有加载数据。余辉，中科院硕士研究生毕业，专注于大数据领域多年。曾工作于清华大学、京东，现从事大数据讲师一职。博客地址：https://blog.csdn.net/silentwolfyh

2020-05-05

新概念2知识点.pdf

新概念2-课文名称和知识点，链接：https://blog.csdn.net/silentwolfyh/article/details/95083297

2019-09-06

crawlerBank.py

功能说明： 2、选择爬取代码说明： 1、如果没有参数，则抓取所有银行数据 1.1、抓取过程中如果有一家银行有错误，会邮件报警，且不影响其余银行抓取 2、如果有参数（参数只能有一个）且参数正确，则抓取对应银行数据 3、如果有参数（参数只能有一个）且参数操作，则停止运行，弹出正确参数列表 4、15家银行的银行名称、银行代码、银行URL如下所示：备注： 001 属于页面数据源在内嵌Iframe 002 属于页面数据源为json 008 属于页面数据源为js 010 属于页面数据源为xml

2019-07-08

Hive的Udf函数进行数据脱敏

udf开发–做个简单脱敏udf保留前5位，后面全部替换成*****

2019-01-26

sqoop的数据导入

2019-01-16

SpringBoot的mvc三层以及增删改查页面

demo说明 1、这个demo是一个springboot的样例。 2、MVC三层都弄好了,增删改查功能都能用。 3、Test中有Service层的测试方法参考地址:https://blog.csdn.net/silentwolfyh/article/details/84350966 参考地址:https://blog.csdn.net/silentwolfyh/article/details/83995563

2018-11-22

spring boot+mybatis整合

目录一、整体结构图二、Spring boot搭建三、整合Mybatis(自动生成工具) 1、集成druid，使用连接池 2、自动生成工具依赖和插件 3、最终的pom.xml文件： 4、在application.yml中添加数据源、Mybatis的实体和配置文件位置。 5、自动生成代码配置文件。 6、建立数据库和表 7、生产Dao层和entity类 8、建立controller层类 9、建立service层类 10、启动之后结果展示 --------------------- 作者：silentwolfyh 来源：CSDN 原文：https://blog.csdn.net/silentwolfyh/article/details/83995563 版权声明：本文为博主原创文章，转载请附上博文链接！

2018-11-12

Lucene实战(第2版).pdf

《lucene实战（第2版）》基于apache的lucene3.0，从lucene核心、lucene应用、案例分析3个方面详细系统地介绍了lucene，包括认识lucene、建立索引、为应用程序添加搜索功能、高级搜索技术、扩展搜索、使用tika提取文本、lucene的高级扩展、使用其他编程语言访问lucene、lucene管理和性能调优等内容，最后还提供了三大经典成功案例，为读者展示了一个奇妙的搜索世界。　　《lucene实战（第2版）》适合于已具有一定java编程基本的读者，以及希望能够把强大的搜索功能添加到自己的应用程序中的开发人员。lucene实战（第2版）》对于从事搜索引擎工作的工程技术人员，以及在java平台上进行各类软件开发的人员和编程爱好者，也具有很好的学习参考价值。

2018-08-28

SparkSql技术

目录一：为什么sparkSQL？ 3 1.1：sparkSQL的发展历程 3 1.1.1：hive and shark 3 1.1.2：Shark和sparkSQL 4 1.2：sparkSQL的性能 5 1.2.1：内存列存储（In-Memory Columnar Storage） 6 1.2.2：字节码生成技术（bytecode generation，即CG） 6 1.2.3：scala代码优化 7 二：sparkSQL运行架构 8 2.1：Tree和Rule 9 2.1.1：Tree 10 2.1.2：Rule 10 2.2：sqlContext的运行过程 12 2.3：hiveContext的运行过程 14 2.4：catalyst优化器 16 三：sparkSQL组件之解析 17 3.1：LogicalPlan 18 3.2：SqlParser 20 3.1.1：解析过程 20 3.1.2：SqlParser 22 3.1.3：SqlLexical 25 3.1.4：query 26 3.3：Analyzer 26 3.4：Optimizer 28 3.5：SpankPlan 30 四：深入了解sparkSQL运行计划 30 4.1：hive/console安装 30 4.1.1：安装hive/cosole 30 4.1.2：hive/console原理 31 4.2：常用操作 32 4.2.1 查看查询的schema 32 4.2.2 查看查询的整个运行计划 33 4.2.3 查看查询的Unresolved LogicalPlan 33 4.2.4 查看查询的analyzed LogicalPlan 33 4.2.5 查看优化后的LogicalPlan 33 4.2.6 查看物理计划 33 4.2.7 查看RDD的转换过程 33 4.2.8 更多的操作 34 4.3：不同数据源的运行计划 34 4.3.1 json文件 34 4.3.2 parquet文件 35 4.3.3 hive数据 36 4.4：不同查询的运行计划 36 4.4.1 聚合查询 36 4.4.2 join操作 37 4.4.3 Distinct操作 37 4.5：查询的优化 38 4.5.1 CombineFilters 38 4.5.2 PushPredicateThroughProject 39 4.5.3 ConstantFolding 39 4.5.4 自定义优化 39 五：测试环境之搭建 40 5.1：虚拟集群的搭建（hadoop1、hadoop2、hadoop3） 41 5.1.1：hadoop2.2.0集群搭建 41 5.1.2：MySQL的安装 41 5.1.3：hive的安装 41 5.1.4：Spark1.1.0 Standalone集群搭建 42 5.2：客户端的搭建 42 5.3：文件数据准备工作 42 5.4：hive数据准备工作 43 六：sparkSQL之基础应用 43 6.1：sqlContext基础应用 44 6.1.1：RDD 44 6.1.2：parquet文件 46 6.1.3：json文件 46 6.2：hiveContext基础应用 47 6.3：混合使用 49 6.4：缓存之使用 50 6.5：DSL之使用 51 6.6：Tips 51 七：ThriftServer和CLI 51 7.1：令人惊讶的CLI 51 7.1.1 CLI配置 52 7.1.2 CLI命令参数 52 7.1.3 CLI使用 53 7.2：ThriftServer 53 7.2.1 ThriftServer配置 53 7.2.2 ThriftServer命令参数 54 7.2.3 ThriftServer使用 54 7.3：小结 56 八：sparkSQL之综合应用 57 8.1：店铺分类 57 8.2：PageRank 59 8.3：小结 61 九：sparkSQL之调优 61 9.1：并行性 62 9.2：高效的数据格式 62 9.3：内存的使用 63 9.4：合适的Task 64 9.5：其他的一些建议 64 十：总结 64

2018-08-16

TA关注的人

北京小辉