2017年07月_北京小辉

10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Missing artifact jdk.tools:jdk.tools:jar:1.6

问题：Missing artifact jdk.tools:jdk.tools:jar:1.6 <dependency> <groupId>jdk.tools</groupId> <artifactId>jdk.tools</artifactId

2017-07-29 16:09:40 6546 1

原创 pycharm远程登录服务器执行

建立ssh连接，输入账户密码设置保存上传设置文件上传保存路径打开ssh与服务器建立连接结果展示

2017-07-28 10:11:35 2283

原创 HDFS常用命令

选项名称使用格式含义-ls -ls <路径> 查看指定路径的当前目录结构-lsr -lsr <路径> 递归查看指定路径的目录结构-du -du <路径> 统计目录下个文件大小-dus -dus <路径> 汇总统计目录下文件(夹)大

2017-07-26 12:43:16 1308

原创博客图片保存区

【友情推荐】更多大数据学习资源详细请咨询章鱼大数据，回复暗号：bd余辉微信交流群如果对我的博客感兴趣，扫描二维码关注我的【微信】和【微博】余辉微信公众号二维码余辉微博二维码余辉微信二维码章鱼大数据章鱼大数据

2017-07-17 22:14:16 770

原创 Python开发环境搭建和配置

目录：一、前期准备二、安装Python三、安装PyCharm四、 PyCharm创建项目五、 PyCharm配置———————————————————————————————一、前期准备百度云：http://pan.baidu.com/s/1kVsVcWZ二、安装Python验证Pythonwindows系统，运行——cmd，进入dos窗口，输入python，安

2017-07-17 14:38:46 1122

原创 Python工具类

本篇将介绍python中sys, getopt模块处理命令行参数如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[2]文件名：paremters.py#!/usr

2017-07-13 14:38:29 1268

原创 python读文件read()、readline()、readlines()三个方法的区别

#!/usr/bin/python# -*- coding: UTF-8 -*-'''Created on 2017年7月13日@author: yuhui'''import time; # 引入time模块"""1、读取文件的三个方法：read()、readline()、readlines()2、三个方法均可接受一个变量用以限制每次读取的数据量，通常不使用该变量。""""""关

2017-07-13 11:26:03 2072

原创 Python模块之ConfigParser - 读写配置文件

目录：1、配置文件的格式2、Unicode 编码的配置3、allow_no_value4、DEFAULT section5、插值 Interpolation——————————————————————————————-1、配置文件的格式a) 配置文件中包含一个或多个 section，每个 section 有自己的 option；b) section 用 [sect_name] 表示，每个optio

2017-07-12 11:27:22 1008

原创 Java向文本指定行插入值

需求：使用Java在不覆写文本的情况下，指定将输入内容插入到指定行。思路：1、获取到写入内容的字节数，比如 Size = b.length() 2、使用Java中的RandomAccessFile类，获取写入的文本地址 3、通过randomAccessFile.seek()找到内容书写的定位 4、将定位以下的内容全部向下移动Size 字节 5、通过randomAccessFile.write

2017-07-11 09:28:39 6479

原创 JAVA Set 交集，差集，并集

/** * Created by yuhui on 2017/7/11 0011. */import java.util.HashSet;import java.util.Set;public class TestSet { public static void main(String[] args) { Set<String> result = new HashSet<

2017-07-11 09:04:49 109689 7

原创 python 移动文件或文件夹操作

目录：1、python中对文件、文件夹操作时经常用到的os模块和shutil模块常用方法2、文件操作方法大全3、目录操作方法大全————————————————————————————–1、python中对文件、文件夹操作时经常用到的os模块和shutil模块常用方法。1.得到当前工作目录，即当前Python脚本工作的目录路径: os.getcwd()2.返回指定目录下的所有文件和目录名:os.li

2017-07-10 17:02:09 111657

原创 2017年18岁的北京文科状元父母都是外交官，关于高考，他说出了我们竭力回避的戳心真相

条条大路通罗马，可是那个孩子，人家已经在罗马了。那些真正跑赢同龄人的年轻人，是拥有见识+知识+格局的结果。第一段：这两天看到北京市文科状元接受采访时说的话，觉得一个孩子，简简单单就说出了大人不愿意正视的问题。 “农村地区的孩子越来越难考上好学校，你像我这种，属于中产阶级家庭的（孩子），衣食无忧，家长也都是知识分子。而且还生在北京这种大城市，所以在教育资源上享受到这种得天

2017-07-03 09:28:54 4888

Mysql教程所有数据.zip

博客【北京小辉】中Mysql教程的所有加载数据。余辉，中科院硕士研究生毕业，专注于大数据领域多年。曾工作于清华大学、京东，现从事大数据讲师一职。博客地址：https://blog.csdn.net/silentwolfyh

2020-05-05

新概念2知识点.pdf

新概念2-课文名称和知识点，链接：https://blog.csdn.net/silentwolfyh/article/details/95083297

2019-09-06

crawlerBank.py

功能说明： 2、选择爬取代码说明： 1、如果没有参数，则抓取所有银行数据 1.1、抓取过程中如果有一家银行有错误，会邮件报警，且不影响其余银行抓取 2、如果有参数（参数只能有一个）且参数正确，则抓取对应银行数据 3、如果有参数（参数只能有一个）且参数操作，则停止运行，弹出正确参数列表 4、15家银行的银行名称、银行代码、银行URL如下所示：备注： 001 属于页面数据源在内嵌Iframe 002 属于页面数据源为json 008 属于页面数据源为js 010 属于页面数据源为xml

2019-07-08

Hive的Udf函数进行数据脱敏

udf开发–做个简单脱敏udf保留前5位，后面全部替换成*****

2019-01-26

sqoop的数据导入

2019-01-16

SpringBoot的mvc三层以及增删改查页面

demo说明 1、这个demo是一个springboot的样例。 2、MVC三层都弄好了,增删改查功能都能用。 3、Test中有Service层的测试方法参考地址:https://blog.csdn.net/silentwolfyh/article/details/84350966 参考地址:https://blog.csdn.net/silentwolfyh/article/details/83995563

2018-11-22

spring boot+mybatis整合

目录一、整体结构图二、Spring boot搭建三、整合Mybatis(自动生成工具) 1、集成druid，使用连接池 2、自动生成工具依赖和插件 3、最终的pom.xml文件： 4、在application.yml中添加数据源、Mybatis的实体和配置文件位置。 5、自动生成代码配置文件。 6、建立数据库和表 7、生产Dao层和entity类 8、建立controller层类 9、建立service层类 10、启动之后结果展示 --------------------- 作者：silentwolfyh 来源：CSDN 原文：https://blog.csdn.net/silentwolfyh/article/details/83995563 版权声明：本文为博主原创文章，转载请附上博文链接！

2018-11-12

Lucene实战(第2版).pdf

《lucene实战（第2版）》基于apache的lucene3.0，从lucene核心、lucene应用、案例分析3个方面详细系统地介绍了lucene，包括认识lucene、建立索引、为应用程序添加搜索功能、高级搜索技术、扩展搜索、使用tika提取文本、lucene的高级扩展、使用其他编程语言访问lucene、lucene管理和性能调优等内容，最后还提供了三大经典成功案例，为读者展示了一个奇妙的搜索世界。　　《lucene实战（第2版）》适合于已具有一定java编程基本的读者，以及希望能够把强大的搜索功能添加到自己的应用程序中的开发人员。lucene实战（第2版）》对于从事搜索引擎工作的工程技术人员，以及在java平台上进行各类软件开发的人员和编程爱好者，也具有很好的学习参考价值。

2018-08-28

SparkSql技术

目录一：为什么sparkSQL？ 3 1.1：sparkSQL的发展历程 3 1.1.1：hive and shark 3 1.1.2：Shark和sparkSQL 4 1.2：sparkSQL的性能 5 1.2.1：内存列存储（In-Memory Columnar Storage） 6 1.2.2：字节码生成技术（bytecode generation，即CG） 6 1.2.3：scala代码优化 7 二：sparkSQL运行架构 8 2.1：Tree和Rule 9 2.1.1：Tree 10 2.1.2：Rule 10 2.2：sqlContext的运行过程 12 2.3：hiveContext的运行过程 14 2.4：catalyst优化器 16 三：sparkSQL组件之解析 17 3.1：LogicalPlan 18 3.2：SqlParser 20 3.1.1：解析过程 20 3.1.2：SqlParser 22 3.1.3：SqlLexical 25 3.1.4：query 26 3.3：Analyzer 26 3.4：Optimizer 28 3.5：SpankPlan 30 四：深入了解sparkSQL运行计划 30 4.1：hive/console安装 30 4.1.1：安装hive/cosole 30 4.1.2：hive/console原理 31 4.2：常用操作 32 4.2.1 查看查询的schema 32 4.2.2 查看查询的整个运行计划 33 4.2.3 查看查询的Unresolved LogicalPlan 33 4.2.4 查看查询的analyzed LogicalPlan 33 4.2.5 查看优化后的LogicalPlan 33 4.2.6 查看物理计划 33 4.2.7 查看RDD的转换过程 33 4.2.8 更多的操作 34 4.3：不同数据源的运行计划 34 4.3.1 json文件 34 4.3.2 parquet文件 35 4.3.3 hive数据 36 4.4：不同查询的运行计划 36 4.4.1 聚合查询 36 4.4.2 join操作 37 4.4.3 Distinct操作 37 4.5：查询的优化 38 4.5.1 CombineFilters 38 4.5.2 PushPredicateThroughProject 39 4.5.3 ConstantFolding 39 4.5.4 自定义优化 39 五：测试环境之搭建 40 5.1：虚拟集群的搭建（hadoop1、hadoop2、hadoop3） 41 5.1.1：hadoop2.2.0集群搭建 41 5.1.2：MySQL的安装 41 5.1.3：hive的安装 41 5.1.4：Spark1.1.0 Standalone集群搭建 42 5.2：客户端的搭建 42 5.3：文件数据准备工作 42 5.4：hive数据准备工作 43 六：sparkSQL之基础应用 43 6.1：sqlContext基础应用 44 6.1.1：RDD 44 6.1.2：parquet文件 46 6.1.3：json文件 46 6.2：hiveContext基础应用 47 6.3：混合使用 49 6.4：缓存之使用 50 6.5：DSL之使用 51 6.6：Tips 51 七：ThriftServer和CLI 51 7.1：令人惊讶的CLI 51 7.1.1 CLI配置 52 7.1.2 CLI命令参数 52 7.1.3 CLI使用 53 7.2：ThriftServer 53 7.2.1 ThriftServer配置 53 7.2.2 ThriftServer命令参数 54 7.2.3 ThriftServer使用 54 7.3：小结 56 八：sparkSQL之综合应用 57 8.1：店铺分类 57 8.2：PageRank 59 8.3：小结 61 九：sparkSQL之调优 61 9.1：并行性 62 9.2：高效的数据格式 62 9.3：内存的使用 63 9.4：合适的Task 64 9.5：其他的一些建议 64 十：总结 64

2018-08-16

TA关注的人

北京小辉