北京小辉-CSDN博客

原创 13将来进行时

一、将来进行时语法:will be doing 不挑主语,所以使用频率比较高shall be doing 挑主语，只能为I / we解释:将来某时正在进行/确定要发生的将来I will be waiting here at 10:00 tomorrow.They will ...

2019-07-14 15:20:56 294

原创 00英语时态

英语时态一般进行完成完成进行现在一般现在时现在进行时现在完成时现在完成进行时过去一般过去时过去进行时过去完成时过去完成进行时将来一般将来时将来进行时将来完成时将来完成进行时过去将来一般过去将来时过去将来进行时过去将来完成时过去将来完成进行时一般现在时一般过去时一般将来时一般过去将来时现在进行时过去进行...

2019-07-14 15:20:38 1728

原创新概念2-课文名称和知识点

课文名称知识点Lesson 1 A private conversation 私人谈话Lesson 2 Breakfast or lunch?早餐还是午餐?Lesson 3 Please send me a card 请给我寄一张明信片Lesson 4 An exciting trip 激动人心的旅行Lesson 5 No wrong numbe...

2019-07-14 15:20:25 8022

原创 15直接引语变间接引语(陈述句作宾语从句)

一、直接引语变间接引语用法：1）引号去掉，变成宾语从句2）根据语句情况，转换人称和时态例子：他说:“我是笨蛋。” 直接引语他说我是笨蛋。错误语句他说他是笨蛋。间接引语（直接引语变间接引语）He says, ‘I am ...

2019-07-14 15:18:44 1235

原创 16 if 条件状语从句

一、 if 条件状语从句(真实条件句)备注：1、【假设将来】在生活中或者学生期间占据90%以上，所以我们一直有个假象【所有if条件状语都是主将从现】2、if条件状语从句，注意主句和从句的变换（如上图所示）1、if 条件状语从句(真实条件句)【假设过去】（从句）If tall chimneys were built above sea level, （主句）the tunnel wou...

2019-07-14 15:18:24 5981

原创 14过去完成时 vs 现在完成时，过去完成时 vs 一般过去时 vs 过去将来时

一、过去完成时形式:had + done用法:过去的之前解释：(全部完成/部分完成)二、过去完成时变否定疑问She had left.She had not left.Had she left?What had she done?三、过去完成时与一般过去时的搭配使用When he got there, she had left.一般过去时过去完成时过去 ...

2019-07-14 15:17:27 767

原创大数据权限管理-Hue和ldap脚本说明(6)

说明：脚本有两个，第一个脚本功能是：添加组，用户，组和用户的映射关系第二个脚本功能是：将ldap中创建的组同步到hue中#!/usr/bin/env bash:<<EOF功能：添加组，用户，组和用户的映射关系说明： 1）参数为：组，用户，add。则添加组，用户，依赖 2）参数为：组，用户，delete。则删除依赖EOFif [ $# != 3 ] ; ...

2019-07-10 10:13:12 386

原创大数据权限管理-Hue和ldap配置及案例操作(5)

大数据权限管理-Hue和ldap案例操作(5)

2019-07-10 10:13:06 4067 1

原创大数据权限管理-ldap和phpldapadmin安装(4)

大数据权限管理-Hue和ldap配置(4)

2019-07-10 10:13:00 696

转载大数据权限管理-Security和hue案例操作(3)

大数据权限管理-Security和hue案例操作(3)

2019-07-10 10:12:55 2298 2

原创大数据权限管理-Security和hive-impala-hue的配置(2)

目录1、Sentry和hive的配置2、Sentry和impala的配置3、Sentry和hue的配置1、Sentry和hive的配置本文主要粗略叙述基于 ClouderaManager 在CDH 5.14 中为 Impala 和 Hive 配置 Sentry 的过程。在Se...

2019-07-10 10:12:49 798

原创大数据权限管理-研究过程及组件介绍(1)

目录1、问题2、研究过程及结果3、组件介绍hue介绍Security介绍ACLs介绍ldap介绍1、问题：大数据平台中权限问题让不少架构师是头疼，大数据平台中【HIVE库】和【HDFS目录】让用户随意操作，以至于【HIVE库】和【HDFS目录】中敏感区和非敏感区得不到有效控制。就算通过HDFS的ACL控制了，但通过程序任何用户依然操作【HIVE库】和【HDFS目录】中敏感区...

2019-07-10 10:12:42 1022

原创 Python3 SMTP发送邮件

https://www.runoob.com/python3/python3-smtp.htmldef sendEmail(message): # 第三方 SMTP 服务 mail_host = "smtp.qq.com" # 设置服务器 mail_user = "348835027@qq.com" # 用户名 mail_pass = "" # 口令 ...

2019-07-05 11:21:40 661

原创大数据系列的默认端口（hbase，hadoop，hived等）

组件Daemon端口配置说明HDFSDataNode50010dfs.datanode.addressdatanode服务端口，用于数据传输50075dfs.datanode.http.addresshttp服务的端口50475dfs.datanode.https.addresshttps服务的端口50020dfs.data...

2019-06-20 17:04:31 10493 5

原创 Python3爬虫--页面数据寻找及解析

目录一、需求说明二、页面数据源在内嵌Iframe三、页面数据源为json四、页面数据源为js五、页面数据源为xml一、需求说明近期有一个项目是爬取多家银行汇率，我提取了几个相似的案例，本文主要讲解页面数据获取方法。二、页面数据源在内嵌Iframe中银香港URL为： https://www.bochk.com/tc/investment/rates/deposit.html实...

2019-06-20 16:47:41 1268

转载 CDH 如何获取Hive正在执行或者已结束的的MapReduce作业的SQL语句

目录一、文档编写目的二、通过YARN执行作业的xml配置文件获取三、通过Cloudera Manager来获取四、通过Cloudera Manager的API接口获取一、文档编写目的当我们提交Hive SQL语句到YARN后，有时如果我们想监控某个SQL的执行情况，需要查看具体SQL语句，如果这个SQL语句比较长，无论是通过YARN的8088界面还是YARN的命令都无法看全这个SQ...

2019-06-20 15:39:08 4165

使用场景：主要想实现抽取hbase数据到hive中，Sqoop不支持对hbase的直接抽取，但是我们可以通过Phoenix映射hbase表实现。安装好phoenix后对于HBase中已经存在的数据表不会自动进行映射，所以想要再phoenix中操作HBase已有数据表就需要手动进行配置。查看phoenix的版本，如果版本是4.10之前的，映射关系是根据列来映射的，phoenix可以通过create...

2019-05-06 21:35:09 814

原创 Hive中row_number()函数用法详解及示例

目录一、Hive 中row_number()函数介绍二、使用示例三、总结四、附录在Oracle中，我们经常会用到row_number() over(partition by clo1 order by clo2 desc) 方法来取表中clo1 重复记录clo2最大的一条或几条记录，那在Hive上row_number()是否存在这个函数，其具体的用法是怎么样的呢？下面我们通过具体的示...

2019-04-26 10:51:17 12686

原创 azkaban失败任务批量重跑

其他接口可以参考官方文档 https://azkaban.readthedocs.io/en/latest/ajaxApi.html一、mydb查询失败数据（查出projectname和flowid）select b.name ,a.flow_id from execution_jobs aINNER JOIN projects b ON a.project_id = b.idWHERE ...

2019-04-25 15:43:02 4651

原创 Hive教程（十二）---HIVE表的备份及清除脚本

#!/usr/bin/env bash:<<EOF将${db}中的${tableName}备份到${bak_db}中，且删除${db}.${tableName}EOFif [ $# != 2 ] ; thenecho "请输入参数：库名表名"echo " e.g.: ./cleanHiveTable.sh app app_system_yh_d"exit 1;fi...

2019-04-25 11:17:59 1480

原创数据仓库中拉链表的实现

在有些情况下，为了保持历史的一些状态，需要用拉链表来做，这样做目的在可以保留所有状态的情况下可以节省空间。拉链表适用于以下几种情况吧数据量有点大，表中某些字段有变化，但是呢变化的频率也不是很高，业务需求呢又需要统计这种变化状态，每天全量一份呢，有点不太现实，不仅浪费了存储空间，有时可能业务统计也有点麻烦，这时，拉链表的作用就提现出来了，既节省空间，又满足了需求。一般在数仓中通过增加begi...

2019-04-17 18:23:48 16451 1

原创数据仓库中的增量表，全量表，快照表，拉链表

目录1、增量表2、全量表3、快照表4、拉链表1、增量表增量表：新增数据，增量数据是上次导出之后的新数据。（1）记录每次增加的量，而不是总量；（2）增量表，只报变化量，无变化不用报（3）每天一个分区2、全量表每天的所有的最新状态的数据。（1）全量表，有无变化，都要报（2）每次上报的数据都是所有的数据（变化的 + 没有变化的）（3）只有一个分区3、快照表按日分区...

2019-04-17 14:25:43 20666 2

原创 Shell教程（六）--函数

#!/usr/bin/env bash:<<EOF Shell 函数EOF###########################[ function ] funname [()]#{# action;# [return int;] #返回值只能为int#}##########################demoFun(){ ...

2019-04-17 13:37:12 305

原创 Shell教程（五）--流程控制

#!/usr/bin/env bash:<<EOF Shell 流程控制 if if else if else-if elseEOF############################if 语句语法格式, if else 语法格式, if else-if else 语法格式,##if condition ...

2019-04-17 13:36:30 242

原创 Shell教程（四）--输出的格式化

#!/usr/bin/env bash:<<EOF Shell printf 命令(输出的格式化)EOF#=================================================================================# 语法 printf format-string [arguments...]# ...

2019-04-17 13:35:54 1195

原创 Shell教程（三）--算术运算符

#!/usr/bin/env bash:<<EOF Shell 算术运算符EOFecho "==============Shell 算术运算符========================"a=10b=20val=`expr $a + $b`echo "a + b : $val"val=`expr $a - $b`echo "a - b : $val"...

2019-04-17 13:35:13 356

原创 Shell教学-参数传递

#!/usr/bin/env bash:<<EOF Shell 参数传递EOF#--------------------------------------------# $# 传递到脚本的参数个数# $* 以一个单字符串显示所有向脚本传递的参数。# 如"$*"用「"」括起来的情况、以"$1 $2 … $n"的形式输出所有参数。# $$ ...

2019-04-17 13:34:34 283

原创 Shell教程（一）--变量

#!/usr/bin/env bash:<<EOF 1、shell 变量EOFecho "============Shell 变量===================="#注意，变量名和等号之间不能有空格your_name="runoob.com"echo $your_name#有效变量RUNOOB="RUNOOB"LD_LIBRARY_PATH="LD...

2019-04-17 13:30:23 298

原创 Hive中UDF函数包含HttpClient依赖冲突

目录一、错误信息二、问题分析及解决三、httpclient-4.2.5版本Get，Post方法四、httpclient-4.5.3版本Get，Post方法一、错误信息：Caused by: org.apache.hadoop.hive.ql.metadata.HiveException: Unable to execute method public java.lang.String...

2019-04-11 20:05:32 2160 3

原创 CDH5.14.4离线安装Spark2.2.0详细步骤

目录一、简介：二、安装准备三、开始安装一、简介：在我的CDH5.14.4集群中，默认安装的spark是1.6版本，这里需要将其升级为spark2.x版本。经查阅官方文档，发现spark1.6和2.x是可以并行安装的，也就是说可以不用删除默认的1.6版本，可以直接安装2.x版本，它们各自用的端口也是不一样的。这里做一下安装spark2.1版本的步骤记录。二、安装准备csd包：http...

2019-03-19 11:48:22 8320 3

原创 CDH5.14.4之HDFS-Hbase-Yarn的高可用配置

需求：CDH5.14.4需要将HDFS、Hbase、Yarn做一个高可用设置HDFS高可用配置前提：在搭建cdh的时候是有一个secondNameNode角色,而在做HDFS的HA机制的时候会删除这个角色。同时需要JournalNode角色。步鄹如下：HDFS高可用结果如下：Hbase高可用配置Hbase高可用如下：Yarn高可用配置...

2019-03-18 16:09:11 1500

原创 CDH邮件报警配置(亲测)

cloudera manager提供邮箱警告功能，方便管理员在集群出现问题的第一时间维护集群。具体操作如下：1.登录cloudera manager页面，进入cloudera manager service服务2.点击配置，在搜索框中写入alert:3.邮箱服务器密码的获取方法：这里很重要：进入发件人的qq邮箱，用户-账户-smtp开启-服务码，具体方法可以问度娘，这里不详述。将授权...

2019-03-07 14:32:06 3063 9

原创 sqoop入门教程

目录一、Sqoop概述&amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp;1、简介&amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nbsp;2、Sqoop架构原理&amp;nbsp; &amp;nbsp; &amp;nbsp; &amp;nb

2019-01-22 20:45:01 3530

原创 tmpwatch安装和使用

目录一、需求二、安装和使用三、常用命令一、需求CDH上面时长报警，日志路径也更改过。后来发现是/tmp文件很大，之后安装了tmpwatch软件定期清洗。二、安装和使用yum -y install tmpwatch验证：cat /etc/cron.daily/tmpwatch[root@hadoop11 ~]# cat /etc/cron.daily/tmpwatch#!...

2019-01-11 16:09:38 3800 1

原创通过python连接hive

需求：通过Anaconda3.6.7连接hive查询步鄹：下载pyhiveconda install pyhive查询脚本from pyhive import hiveconn = hive.Connection(host=&amp;quot;IP&amp;quot;, port=10000, username=&amp;quot;hive&amp;quot;)cursor= conn.cursor()c

2018-12-27 17:59:09 2360

原创 idea+springboot+freemarker热部署(亲测)

需求：最近要做前端事情，使用了idea+springboot+freemarker，每次修改freemarker都要重新启动，网络找了一些方法，加上自己的一些方法完成了。本人用的是idea2018.1的版本步鄹第一步：在maven中加入devtools的依赖（这里我使用的是maven来管理项目） &amp;lt;!-- freemarker热启动 --&amp;gt; &amp;lt;...

2018-12-17 14:18:12 5734 5

原创 Shell教程（二）--参数传递

Shell 参数传递默认方式#!/usr/bin/env bash:<<EOF Shell 参数传递EOF#--------------------------------------------# $# 传递到脚本的参数个数# $* 以一个单字符串显示所有向脚本传递的参数。# 如"$*"用「"」括起来的情况、以"$1 $2 … $n"的形式输...

2018-12-11 14:49:13 1259

原创 SpringBootMVC的增删改查以及Jsp页面展示

目录1、demo结构2、Springboot项目修改html后不需要重启1、demo结构Demo下载地址:demo整体结构前台页面新增页面编辑页面删除页面2、Springboot项目修改html后不需要重启1)spring-boot-devtools在pom中直接引入依赖&amp;amp;amp;amp;lt;dependency&amp;amp;amp;amp;gt; &a

2018-11-22 23:39:40 2653 6

原创 spring boot+mybatis整合

2018-11-12 17:35:45 686

原创 SSH无密钥配置和配置公钥后仍需要输入密码的解决方案

目录1、ssh免密登陆的配置方法两种2、仍需要密码登陆问题解决1、ssh免密登陆的配置方法两种1、ssh-keygen -t rsa在客户端生成密钥对把公钥拷贝给要登录的目标主机，目标主机上将这个公钥加入到授权列表 cat id_rsa.pub &gt;&gt;authorized_keys目标主机还要将这个授权列表文件权限修改为600 chmod 600 authorized_k...

2018-11-02 15:25:49 15013 3

Mysql教程所有数据.zip

博客【北京小辉】中Mysql教程的所有加载数据。余辉，中科院硕士研究生毕业，专注于大数据领域多年。曾工作于清华大学、京东，现从事大数据讲师一职。博客地址：https://blog.csdn.net/silentwolfyh

2020-05-05

新概念2知识点.pdf

新概念2-课文名称和知识点，链接：https://blog.csdn.net/silentwolfyh/article/details/95083297

2019-09-06

crawlerBank.py

功能说明： 2、选择爬取代码说明： 1、如果没有参数，则抓取所有银行数据 1.1、抓取过程中如果有一家银行有错误，会邮件报警，且不影响其余银行抓取 2、如果有参数（参数只能有一个）且参数正确，则抓取对应银行数据 3、如果有参数（参数只能有一个）且参数操作，则停止运行，弹出正确参数列表 4、15家银行的银行名称、银行代码、银行URL如下所示：备注： 001 属于页面数据源在内嵌Iframe 002 属于页面数据源为json 008 属于页面数据源为js 010 属于页面数据源为xml

2019-07-08

Hive的Udf函数进行数据脱敏

udf开发–做个简单脱敏udf保留前5位，后面全部替换成*****

2019-01-26

sqoop的数据导入

2019-01-16

SpringBoot的mvc三层以及增删改查页面

demo说明 1、这个demo是一个springboot的样例。 2、MVC三层都弄好了,增删改查功能都能用。 3、Test中有Service层的测试方法参考地址:https://blog.csdn.net/silentwolfyh/article/details/84350966 参考地址:https://blog.csdn.net/silentwolfyh/article/details/83995563

2018-11-22

spring boot+mybatis整合

目录一、整体结构图二、Spring boot搭建三、整合Mybatis(自动生成工具) 1、集成druid，使用连接池 2、自动生成工具依赖和插件 3、最终的pom.xml文件： 4、在application.yml中添加数据源、Mybatis的实体和配置文件位置。 5、自动生成代码配置文件。 6、建立数据库和表 7、生产Dao层和entity类 8、建立controller层类 9、建立service层类 10、启动之后结果展示 --------------------- 作者：silentwolfyh 来源：CSDN 原文：https://blog.csdn.net/silentwolfyh/article/details/83995563 版权声明：本文为博主原创文章，转载请附上博文链接！

2018-11-12

Lucene实战(第2版).pdf

《lucene实战（第2版）》基于apache的lucene3.0，从lucene核心、lucene应用、案例分析3个方面详细系统地介绍了lucene，包括认识lucene、建立索引、为应用程序添加搜索功能、高级搜索技术、扩展搜索、使用tika提取文本、lucene的高级扩展、使用其他编程语言访问lucene、lucene管理和性能调优等内容，最后还提供了三大经典成功案例，为读者展示了一个奇妙的搜索世界。　　《lucene实战（第2版）》适合于已具有一定java编程基本的读者，以及希望能够把强大的搜索功能添加到自己的应用程序中的开发人员。lucene实战（第2版）》对于从事搜索引擎工作的工程技术人员，以及在java平台上进行各类软件开发的人员和编程爱好者，也具有很好的学习参考价值。

2018-08-28

SparkSql技术

目录一：为什么sparkSQL？ 3 1.1：sparkSQL的发展历程 3 1.1.1：hive and shark 3 1.1.2：Shark和sparkSQL 4 1.2：sparkSQL的性能 5 1.2.1：内存列存储（In-Memory Columnar Storage） 6 1.2.2：字节码生成技术（bytecode generation，即CG） 6 1.2.3：scala代码优化 7 二：sparkSQL运行架构 8 2.1：Tree和Rule 9 2.1.1：Tree 10 2.1.2：Rule 10 2.2：sqlContext的运行过程 12 2.3：hiveContext的运行过程 14 2.4：catalyst优化器 16 三：sparkSQL组件之解析 17 3.1：LogicalPlan 18 3.2：SqlParser 20 3.1.1：解析过程 20 3.1.2：SqlParser 22 3.1.3：SqlLexical 25 3.1.4：query 26 3.3：Analyzer 26 3.4：Optimizer 28 3.5：SpankPlan 30 四：深入了解sparkSQL运行计划 30 4.1：hive/console安装 30 4.1.1：安装hive/cosole 30 4.1.2：hive/console原理 31 4.2：常用操作 32 4.2.1 查看查询的schema 32 4.2.2 查看查询的整个运行计划 33 4.2.3 查看查询的Unresolved LogicalPlan 33 4.2.4 查看查询的analyzed LogicalPlan 33 4.2.5 查看优化后的LogicalPlan 33 4.2.6 查看物理计划 33 4.2.7 查看RDD的转换过程 33 4.2.8 更多的操作 34 4.3：不同数据源的运行计划 34 4.3.1 json文件 34 4.3.2 parquet文件 35 4.3.3 hive数据 36 4.4：不同查询的运行计划 36 4.4.1 聚合查询 36 4.4.2 join操作 37 4.4.3 Distinct操作 37 4.5：查询的优化 38 4.5.1 CombineFilters 38 4.5.2 PushPredicateThroughProject 39 4.5.3 ConstantFolding 39 4.5.4 自定义优化 39 五：测试环境之搭建 40 5.1：虚拟集群的搭建（hadoop1、hadoop2、hadoop3） 41 5.1.1：hadoop2.2.0集群搭建 41 5.1.2：MySQL的安装 41 5.1.3：hive的安装 41 5.1.4：Spark1.1.0 Standalone集群搭建 42 5.2：客户端的搭建 42 5.3：文件数据准备工作 42 5.4：hive数据准备工作 43 六：sparkSQL之基础应用 43 6.1：sqlContext基础应用 44 6.1.1：RDD 44 6.1.2：parquet文件 46 6.1.3：json文件 46 6.2：hiveContext基础应用 47 6.3：混合使用 49 6.4：缓存之使用 50 6.5：DSL之使用 51 6.6：Tips 51 七：ThriftServer和CLI 51 7.1：令人惊讶的CLI 51 7.1.1 CLI配置 52 7.1.2 CLI命令参数 52 7.1.3 CLI使用 53 7.2：ThriftServer 53 7.2.1 ThriftServer配置 53 7.2.2 ThriftServer命令参数 54 7.2.3 ThriftServer使用 54 7.3：小结 56 八：sparkSQL之综合应用 57 8.1：店铺分类 57 8.2：PageRank 59 8.3：小结 61 九：sparkSQL之调优 61 9.1：并行性 62 9.2：高效的数据格式 62 9.3：内存的使用 63 9.4：合适的Task 64 9.5：其他的一些建议 64 十：总结 64

2018-08-16

TA关注的人

Mysql教程所有数据.zip

新概念2知识点.pdf

crawlerBank.py

Hive的Udf函数进行数据脱敏

sqoop的数据导入

SpringBoot的mvc三层以及增删改查页面

spring boot+mybatis整合

Lucene实战(第2版).pdf

SparkSql技术

MacBook Pro的快捷键

hadoop-Apache2.7.3+Spark2.0集群搭建

SqlServer驱动包

silentwolf

stable-diffusion-webui启动报错

微博对一条微博进行评论API

调用JEECG微博发帖API异常

mac版本idea中路径颜色设置