youngxuebo-CSDN博客

原创 MySQL中trim()函数的用法

trim函数可以过滤指定的字符串：完整格式：TRIM([{BOTH | LEADING | TRAILING} [remstr] FROM] str)简化格式：TRIM([remstr FROM] str)mysql> SELECT TRIM(' bar '); -> 'bar' mysql> SELECT TRIM(LEADING '?' FROM '???bar???'); --删除指定的首字符 x -> 'bar??

2021-10-25 13:45:27 2808

原创高德开放平台天气查询API

https://lbs.amap.com/api/webservice/guide/api/weatherinfovar deal_time = new Date().getHours();if(8< deal_time <20){return [ { weather: data[0].forecasts[0].casts[0].dayweather, temperature: { min : data[0].forecasts[0].casts[0].nig

2021-10-21 18:09:24 837

原创 Mac 每次都要执行source ~/.bash_profile 后，配置的环境变量才生效

问题：自己在 ~/.bash_profile 中配置环境变量, 可是每次重启终端后配置的不生效.需要重新执行 : $source ~/.bash_profile后，才会生效。原因：自己是在bash中配置的环境变量，而当前系统是使用的是shell查看当前使用的shell：终端输入：echo $SHELL输出是/bin/zsh，说明使用的是zsh解决办法：在.zshrc文件加中添加source ~/.bash_profile,方法如下进入主目录 cd ~显示隐藏文件，找到.zshrc

2021-10-19 15:54:47 329

原创 mac 安装 python 。

关于pythonPython是纯粹的自由软件，源代码和解释器CPython遵循 GPL(GNU General Public License)协议。Python语法简洁清晰，特色之一是强制用空白符(white space)作为语句缩进。关于python的安装ps：mac系统自带python，不过版本不超过3，所以建议重新安装检查python版本的方法：打开终端，直接输入python，就会显示python的版本安装python的方法：1、安装xcode工具，“ xcode-select --

2021-10-19 15:51:23 714

原创 group by ，grouping sets ，cube ，rollup区别

grouping sets在一个GROUP BY查询中，根据不同的维度组合进行聚合，等价于将不同维度的GROUP BY结果集进行UNION ALL。select month, day, count(distinct cookieid) as uv from cookiegroup by month,daygrouping sets (month,day)等价于：SELECT month,NULL,COUNT(DISTINCT cookieid) AS

2021-09-02 17:21:20 320

原创 HJ12 字符串反转_scala

描述接受一个只包含小写字母的字符串，然后输出该字符串反转后的字符串。（字符串长度不超过1000）输入描述：输入一行，为一个只包含小写字母的字符串。输出描述：输出该字符串反转后的字符串。示例1输入：abcd输出：dcbaScala代码：import java.util.Scannerobject Main extends App { val scanner = new Scanner(System.in) while (scanner.hasNext()) {

2021-07-04 18:52:31 214

原创 HJ15 求int型正整数在内存中存储时1的个数_Scala

描述输入一个int型的正整数，计算出该int型数据在内存中存储时1的个数。输入描述：输入一个整数（int类型）输出描述：这个数转换成2进制后，输出1的个数示例1输入：5输出：2scala：object Main extends App { val sc = new java.util.Scanner(System.in) while(sc.hasNext()) { val nextBytes = sc.nextInt() val binaryStr

2021-07-04 18:07:27 226

原创 HJ7 取近似值_Scala

描述写出一个程序，接受一个正浮点数值，输出该数值的近似整数值。如果小数点后数值大于等于5,向上取整；小于5，则向下取整。输入描述：输入一个正浮点数值输出描述：输出该数值的近似整数值示例1输入：5.5输出：6scala ：import java.util.Scannerobject Main { def main(args :Array[String]): Unit = { val sc = new java.util.Scanner(System.

2021-07-04 18:05:00 144

原创 HJ4 字符串分隔_Scala

描述•连续输入字符串，请按长度为8拆分每个字符串后输出到新的字符串数组；•长度不是8整数倍的字符串请在后面补数字0，空字符串不处理。输入描述：连续输入字符串(输入多次,每个字符串长度小于100)输出描述：输出到长度为8的新字符串数组示例1输入：abc123456789输出：abc000001234567890000000代码实现：import scala.io._import java.io._import scala.collection.JavaConversio

2021-07-04 18:01:35 358

原创 HJ1 字符串最后一个单词的长度_Scala

描述计算字符串最后一个单词的长度，单词以空格隔开，字符串长度小于5000。输入描述：输入一行，代表要计算的字符串，非空，长度小于5000。输出描述：输出一个整数，表示输入字符串最后一个单词的长度。示例1输入：hello nowcoder输出：8说明：最后一个单词为nowcoder，长度为8object Main extends App{ val scanner = new java.util.Scanner(System.in) while(scann

2021-07-04 17:58:38 180

原创 Sqoop一些常用命令及参数

常用命令列举命令类说明importImportTool将数据导入到集群exportExportTool将集群数据导出codegenCodeGenTool获取数据库中某张表数据生成Java并打包Jarcreate-hive-tableCreateHiveTableTool创建Hive表evalEvalSqlTool查看SQL执行结果import-all-tablesImportAllTablesTool导入某个数据库下所有表到HDF

2021-07-01 07:25:01 168

原创 Sqoop的简单使用案例

Sqoop的简单使用案例导入数据在Sqoop中，“导入”概念指：从非大数据集群（RDBMS）向大数据集群（HDFS，HIVE，HBASE）中传输数据，叫做：导入，即使用import关键字。（1）RDBMS到HDFS（1）全部导入$ bin/sqoop import \--connect jdbc:mysql://bigdata112:3306/test \--username root \--password 000000 \--table student \--target-dir

2021-07-01 06:58:17 217 2

原创 Hive 小记

一、数据库操作1、创建数据库hive (mypractice)> create database if not exists db_hive;数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。可能出现的报错：FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:For direct MetaSto

2021-06-27 16:59:37 125

原创 Hive 数据类型

Hive 基本数据类型Hive 集合数据类型数据类型描述语法示例STRUCT和c语言中的struct类似，都可以通过“点”符号访问元素内容。例如，如果某个列的数据类型是STRUCT{first STRING, last STRING},那么第1个元素可以通过字段.first来引用。struct()MAPMAP是一组键-值对元组集合，使用数组表示法可以访问数据。例如，如果某个列的数据类型是MAP，其中键->值对是’first’->’John’和’last

2021-06-27 16:36:19 180

原创 Hive 小结。

一 Hive基本概念1.1 什么是HiveHive：是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行（由Facebook开源，用于解决海量结构化日志的数据统计。）。本质是：将HQL/SQL转化成MapReduce程序1）Hive处理的数据存储在HDFS2）Hive分析数据底层的实现是MapReduce3）执行程序运行在Yarn上1.2 Hive的优缺点优点：1）操作接口采用类SQ

2021-06-27 16:18:34 213 2

原创 Kafka 一些命令

启动命令bin/kafka-server-start.sh config/server.properties &关闭 xshell 客户端，kafka 即退出，要想一直在后台运行，则在关闭客户端之前，不要用ctrl+c，用exit 函数去退出，则 kafka 在后台运行。查看所有topicbin/kafka-topics.sh --zookeeper localhost:2181 --list创建topicbin/kafka-topics.sh --zookeeper localh

2021-06-27 16:16:36 278 1

原创我的 linux 笔记

uname -r 查看内核版本。

2021-06-26 11:33:04 78

原创 Flume 案例总结。

一、Flume 架构二、Flume传输过程source监控某个文件或数据流，数据源产生新的数据，拿到该数据后，将数据封装在一个Event中，并put到channel后commit提交，channel队列先进先出，sink去channel队列中拉取数据，然后写入到HDFS、kafka中。三...

2021-06-26 10:29:40 959

原创 MongoDB 相关操作命令。

1、启动 MongoDB服务命令：./bin/mongod -config ./data/mongodb.conf2、关闭 MongoDB服务命令：./bin/mongod -shutdown -config ./data/mongodb.conf3、MongoDB 连接：mongodb://username:password@hostname/dbname标准格式：mongodb://[username:password@]host1[:port1][,host2[:port2],...[

2021-06-21 11:28:33 747 1

原创 MongoDB、ElasticSearch、RDMS类比

SQL术语/概念MongoDB术语/概念ElasticSearch术语/概念解释/说明databasedatabaseIndex数据库tablecollectiontype数据库表/集合rowdocumentdocument数据记录行/文档columnfieldfield数据字段/域index索引table joins表连接,MongoDB不支持primary keyprimary key主键,MongoD...

2021-06-20 23:02:48 144

原创 scala中 sorted，sortBy，sortWith语法使用

排序在scala集合中，可以使用以下几种方式来进行排序sorted 默认排序sortBy 指定字段排序sortWith 自定义排序默认排序 sorted//示例：对列表进行升序排序scala> List(3,1,2,9,7).sortedres0: List[Int] = List(1, 2, 3, 7, 9)//示例：对列表进行升序排序scala> List(3,1,2,9,7).sorted.reverseres1: List[Int] = List(9, 7

2021-06-20 22:52:32 1416

原创 Spark 将时间戳转换成年月格式

通过spark-sql，将查询timstamp字段时间戳转换成日期格式： val simpleDateFormat = new SimpleDateFormat("yyyyMM") spark.udf.register("changDate",(x:Long)=> simpleDateFormat.format(new Date(x * 1000L))) spark.sql("select mid,uid,score,changDate(timstamp) from Ratings")

2021-06-19 23:24:43 1937 3

原创从MongoDB中读取数据，并按照需求进行写入数据

需求，从MongoDB中读取数据，找出评价最多的电影，并且倒叙。package Statisticsimport org.apache.spark.SparkConfimport org.apache.spark.sql.{DataFrame, SparkSession}/** * @author youngx * @date 2021/2/17 21:48 * * 从MongoDB中读取数据，并按照需求进行写入数据 *//** * 封装 MongoC

2021-06-19 19:15:55 521

原创通过 DataFrame 将数据导入到 ElasticSearch。

样本类：/** * 封装 MongoConfig配置 * @param uri MongoDB uri * @param db 数据库名 */case class MongoConfig(val uri:String,val db:String)/** * ElasticSearch 配置对象 * @param httpHosts ES通过http连上去，主机名+端口 * @param transportHost ES集群内部通信端口 * @param inde

2021-06-16 07:14:25 501

原创通过 DataFrame 将数据导入到 MongoDB。

1、创建 DataFrame /**声明样本类*/ case class Data(val uid:Int, val tag:String, val info:String ) /**声明Spark环境*/ val conf = new SparkConf().setMaster("local[2]").setAppName("DataLoading")// val sc = new Spark

2021-06-15 23:15:27 1741 1

原创 Flume 介绍及安装

一、Flume简介Flume提供一个分布式的，可靠的，对大数据量的日志进行高效收集、聚集、移动的服务，Flume只能在Unix环境下运行。Flume基于流式架构，容错性强，也很灵活简单。Flume、Kafka用来实时进行数据收集，Spark、Flink用来实时处理数据，impala用来实时查询。二、Flume角色2.1、Source用于采集数据，Source是产生数据流的地方，同时Source会将产生的数据流传输到Channel，这个有点类似于Java IO部分的Channel。2.2

2021-06-15 00:07:22 275 3

原创 Mongodb 安装

一、Mongodb 默认端口默认端口介绍27017mongod 和 mongos 实例的默认端口。你可以通过 port 或 --port 改变该端口。27018设置 --shardsvr 运行变量或在配置文件里设置 clusterRole 为 shardsvr 时的默认端口。27019设置 --configsvr 运行变量或在配置文件中将 clusterRole 设置为 configsvr 时的默认端口。28017系统状态网页的默认端口。系统状态网络页面永远可

2021-06-14 15:47:09 177

原创限定返回行数，查询前几行数据（limit，rownum）

问题：你想限定查询结果的行数。不关心排序，返回n条数据。解决方式：使用数据库内置功能来控制：（1）DB2：select * from t_table fetch first 5 rows only;（2）MySql、PostgreSql：select * from t_table limit 5;（3）Oracle：select * from t_table where rownnum <= 5;（4）sql server：select top 5 *

2021-06-10 09:47:05 704 1

原创 redis中清理缓存 flushdb和flushall 的区别

在redis中,flushdb和flushall 都是清空当前数据库的操作,但是两者有很大的区别:1、flushall 清空数据库并执行持久化操作，也就是rdb文件会发生改变,变成76个字节大小(初始状态下为76字节)，所以执行flushall之后数据库真正意义上清空了.2、flushdb 清空数据库,但是不执行持久化操作，也就是说rdb文件不发生改变。而redis的数据是从rdb快照文件中读取加载到内存的。所以在flushdb之后，如果想恢复数据库，则可以直接kill掉redis-server进程，然

2021-06-07 10:25:59 5849 1

原创 git 基本操作

获取git配置信息： git config --list设置用户名：git config --global user.name “xuebo”设置用户邮箱： git config --global user.email “xxxx”获取帮助： git help初始化项目分支：git init查看当前分支状态：git status添加到暂存区域：git add xxx xxx提交git仓库：git commit -m “submit xxx”(-m 注释，注释内容为 submit xxx)

2021-06-03 11:01:48 131

原创 SUSE 使用 rpm 安装gcc开发环境。

依赖关系：安装依赖glibc-devel-2.11.1-0.17.4.x86_64.rpmlinux-kernel-headers-2.6.27-2.28.noarch.rpmgcc-4.3-62.198.x86_64.rpmgcc43-4.3.4_20091019-0.7.35.x86_64.rpm安装glibc-develrpm -ivh linux-kernel-headers-2.6.27-2.28.noarch.rpmrpm -ivh glibc-de

2021-05-31 16:09:50 727

原创 Kafka配置信息

Broker配置信息：Producer配置信息Consumer配置信息

2021-05-31 00:06:20 635 1

原创 Kafka集群部署

一、下载 Kafka下载地址：http://kafka.apache.org/downloads.html下载版本：kafka_2.11-2.1.1wget https://archive.apache.org/dist/kafka/2.1.1/kafka_2.11-2.1.1.tgz二、环境准备1、安装 Java JDK环境。2、因为 Kafka 是将元数据保存在 Zookeeper 中，故搭建 Kafka 集群之前，需要搭建 Zookeeper 集群。三、Kafka集群部署在Lin

2021-05-30 23:36:55 158

原创 redis 安装

一、下载redis下载地址：http://download.redis.io/releases/redis中文文档地址：http://www.redis.cn/documentation.html最新版本：5.0稳定版为4.0.11所以我们下载4.0.11wget http://download.redis.io/releases/redis-4.0.11.tar.gz二、安装redis在Linux下安装Redis非常简单，具体步骤如下（官网有说明）：1、检查是否安装gccredis

2021-05-30 10:24:19 2089 1

原创 wget命令详解。

导读： wget是Linux中的一个下载文件的工具，wget是在Linux下开发的开放源代码的软件。它用在命令行下。对于Linux用户是必不可少的工具，经常要下载一些软件或从远程服务器恢复备份到本地服务器。如果我们使用虚拟主机，处理这样的事务,我们只能先从远程服务器下载到我们电脑磁盘，然后再用ftp工具上传到服务器。这样既浪费时间又浪费精力，那不没办法的事。而到了Linux VPS，它则可以直接下载到服务器而不用经过上传这一步。wget工具体积小但功能完善，它支持断点下载功能，同时支持FTP和HTTP

2021-05-30 08:30:17 2187

原创如何将xshell窗口取消置顶

问题：莫名其妙，最近发现xshell的窗口老是会被置顶，总排在最前面，导致xshell最大化时，无法切换到其他窗口，很烦，于是索性捣鼓一番。。。原因：微信的Alt+A是截图，快捷键与xshell，如果没登录微信而顺手按了Alt+A，然后xshell就被置顶了！所以将这个取消勾选，但是下次不小心按了Alt +A，还是被制定了，所以为了彻底解决，删除此快捷键：【工具】–>【选项】–>鼠标和键盘–>编辑，选择此项，删除确定即可。...

2021-05-29 23:26:54 4433 1

原创 ES-IK分词器的安装

注意：需选择与es相同版本的ik分词器。方式一：1、进入到 $ ES_HOME/bin 下进行下载：./elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.1.1/elasticsearch-analysis-ik-6.1.1.zip[root@bigdata01 bin]$ pwd/opt/module/elasticsearch-6.1.1/.

2021-05-29 17:20:18 420

原创 Kibana 安装

安装步骤：解压：tar -zxvf kibana-6.6.2-linux-x86_64.tar.gz修改 kibana.yml 配置文件：server.port: 5601# 部署kinana服务器的ipserver.host: "192.168.109.134"# ES的地址elasticsearch.hosts: ["http://192.168.109.133:9200"]kibana.index: ".kibana"启动kibana，报错：[error][status][plu

2021-05-28 05:55:29 315

原创 Logstash 使用小结

logstash是一个数据分析软件，主要目的是分析log日志。整一套软件可以当作一个MVC模型，logstash是controller层，Elasticsearch是一个model层，kibana是view层。首先将数据传给logstash，它将数据进行过滤和格式化（转成JSON格式），然后传给Elasticsearch进行存储、建搜索的索引，kibana提供前端的页面再进行搜索和图表可视化，它是调用Elasticsearch的接口返回的数据进行可视化。logstash和Elasticsearch是用.

2021-05-27 07:28:32 1053

原创 Elasticsearch 常用 API 基本操作。

（1）ElasticSearch服务默认端口9300。（2）Web管理平台端口9200。文章目录1、获取Transport Client2、创建索引和删除索引3、创建 document（文档-行）3.1) 通过Map创建 document（文档-行）3.2) 通过Map创建 document（文档-行）3.3) 通过json串创建 document（文档-行)1、获取Transport Client private TransportClient client; /**.

2021-05-24 00:07:36 574 4

SUSE 使用 rpm 安装gcc开发环境rpm包

空空如也