自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 收藏
  • 关注

原创 pycharm 新建文件后选错文件格式怎么改

pycharm 新建文件后选错文件格式怎么改pycharm 版本 2021.1.3 版本网上搜的都不能用, 版本不太一样, 可能设置的方式也不一样比如这里新建文件时 指定了错误的文件类型, 虽然后面改成.sql, 但是 默认还是txt 文件格式, 就很烦,这个时候要自己改点击 file - File Properties - Associate with File Type然后选择相应的文件类型就ok 了...

2021-07-14 15:10:06 2996 2

原创 支持Impala 的数据库查询工具

支持Impala 的数据库查询工具CDH自带的HUE, 网页版查询工具, 底层通过python进行数据查询分析, 中文界面;Jetbranins 系列的软件, 通过JDBC进行连接, 比较推荐他家的 DataGrip, 英文界面;开源的 Dbeaver, 完全开源免费,使用也很方便, 通过JDBC连接, 中文界面;DBVisualizer, 通过JDBC连接,个人感觉界面风格不适合我, 没有深入使用下面介绍一下连接的操作步骤HUEHue 没有教程, 直接点进去用就好了…DataGrip

2021-04-15 11:59:05 2324 2

原创 pip 离线 批量安装 python 库及其依赖

pip 下载和安装的命令注意:离线安装, 需要你下载用的python3 版本和 安装时用的Python3 版本一致, 否则可能会安装失败的.先编写 requirements 文件,将准备下载的库写入(可以指定版本)vim requirementshdfs下载库以及库的依赖sudo pip3 wheel -r requirements 下载完毕会有很多依赖最后将文件传入离线环境汇总, 安装库和依赖即可sudo pip3 install --no-index --find-links

2021-04-13 10:19:46 739

原创 如何以管理员权限来操作 hdfs

Hadoop 的管理员用户是hdfs, 我们只要在 centos 中使用 hdfs用户来操作hadoop, 他默认识别到的就是管理员了 .sudo -u hdfs hadoop fs -mkdir -p /user/spark/applicationHistorysudo -u hdfs hadoop fs -chmod -R 777 /user/sudo -u hdfs hadoop fs -chown hdfs:supergroup /usersudo -u hdfs hadoop fs

2021-03-30 11:29:53 359

原创 CDH6.3.2 端口使用整理

CDH 6.3.2端口使用说明:ClouderaManager 版本:6.1.17180: Cloudera Manager WebUI端口7182: Cloudera Manager Server 与 Agent 通讯端口8087: Activity Monitor Web UI 端口9087: Port for Activity Monitor’s HTTPS Debug page9999: Activity Monitor 侦听端口9998: 公开 Activity Monit

2021-03-30 11:26:18 3325

原创 dss nginx 403 forbidden

在centos7上面搭建 DataSphereStudio 精简版, 一切安装成功之后, 发现访问 ip:8088 一直显示 403 forbidden, 一直以为是软件装的不对, 追个排查之后才发现是 nginx的问题,nginx的 配置他没写, 我们使用的是默认配置, 默认配置下 nginx 的程序用户是nginx用户, nginx 用户没有权限访问dss 的web资源.nginx 报错日志:2020/12/16 14:26:02 [error] 5951#0: *1 "/home/bank/dss

2020-12-16 14:51:58 1205

原创 crontab识别不了python_path ,ModuleNotFoundError 的问题

crontab -e 编辑命令 执行python文件结果crontab 找不到 python, 或者使用的不是我们用户的python,而是系统默认的python步骤一:这时我们可以手动指定 python, xxx/xxx/xx/ python3 python 文件 这样的方式错误用例:crontab -e00 03 * * * python3 /home/youjun.wang/csv/mdl_online/run_model &>/xx/xx/xx.log &正

2020-08-14 17:41:26 1184 2

原创 配置简单的linux 的几个操作步骤(Cent OS)

vi /etc/sysconfig/network-scripts/ifcfg-eth0 //修改网卡的配置文件vi /etc/hostsvi /etc/sysconfig/network关闭IP防火墙service iptables stopchkconfig iptables off配置谷歌的DNS服务器vi /etc/resolv.conf在配...

2020-05-21 15:54:37 478

原创 自己 spark 优化心得

Spark 优化资源调优1. 阻塞间隔有一个配置参数:spark.streaming.blockInterval,它的意思是每间隔多少秒后,Spark才把接收到的数据组成数据块存到Spark中。官网推荐的最小值是50ms,默认值200ms。假设实例化InputDStream时设置的Duration(batch interval)为1秒(1000ms),那么任务执行时,总共有 1000 / 2...

2020-04-15 16:45:12 266

原创 tldr no internet connection detected. Please reconnect and try again.

(base) wangyoujundeMacBook-Air:~ jerry$ tldr -husage: tldr [-h] [-u] [--download_cache] [-p PLATFORM] [-s SOURCE] [-c] [-r]Python command line client for tldroptional arguments: -h, --help ...

2020-04-15 16:37:29 2450

原创 Windows 桌面美化

大家都是程序员,我平时上班用mac,mac没啥想调整的,自己用的win想搞美化一点,就网上搜了不少东西。这是我现在的桌面,桌面软件用的是wallpaper,stream18元有售。内部还有福利。。。。我只保留了垃圾桶,清垃圾方便点,当然也可以删掉,但是比较麻烦,可以网上搜教程。平时要找程序是这样找的, 就是将桌面上的快捷方式,右键 -> 固定到开始屏幕translucentDB...

2020-04-11 11:34:27 723

原创 Insert Overwrite 进行hive或impala小文件合并后 文件数量不是1

HDFS的表里面,按天分区,每个分区都有很多的小文件,长此以往必然会导致性能的下降。所以我们在保持原来的业务逻辑不变,增加每日跑批 来合并分区内的小文件。刚开始我是直接Impala执行Insert overwrite ,想合并某一天分区内的4份文件, 发现分区内部的文件数还是4个,我就纳闷,以为我记错了 overwrite 的执行原理,然后使用Hive 进行 insert overwrite,结...

2020-04-11 11:11:26 3237

原创 SparkStreaming 消费阿里云日志服务,出现消费中断的情况,跑着跑着就不消费了...

日志信息WARN metadata.Hive: No partition is generated by dynamic partitioningWriteAheadLogBasedStoreResultFutures timed out after这边是表在HDFS中的路径,可以看出,有数据时,会有.hive_stagexxxx 这样的文件, 无数据进来就没有,这时候Streami...

2020-04-10 18:54:51 1940

原创 Superset 调研

Superset1配置数据源添加新的数据库连接填写数据库信息添加数据库成功2配置数据源表点击添加新表填写表的基本信息,点击保存。添加表成功3使用SQL 编辑器进行数据查询新建一个SQL 查询在左边设置该查询连接的数据库信息,可以预览该库下的表数据在SQL 编辑器里运行SQL语句,查询结果可以制作图表,导出为csv文件或者复制到剪贴板4根据查询结果制作图表点击图表类型,选...

2020-03-10 10:42:38 334

原创 Superset 二次开发环境搭建以及启动命令

搭建开发环境参考文档https://blog.csdn.net/jiongsui7605/article/details/92380661启动开发环境终端输入以下命令在 assert 目录下运行 下面两个命令npm run buildnpm run dev最后启动 flask 程序flask run -p 8088 --with-threads --reload --debug...

2020-03-10 10:39:07 2203

翻译 sqoop import 命令常用参数

sqoop import 命令常用参数表1.常用参数参数描述--connect指定JDBC连接字符串--connection-manager指定要使用的连接管理器类--driver手动指定要使用的JDBC驱动程序类--hadoop-mapred-home覆写$ HADOOP_MAPRED_HOME--help打印使用说明--passw...

2020-02-27 11:43:42 3120

原创 HDFS HA 两个NameNode 都是standby状态

HDFS HA 的两个NameNode 都是备用状态,怎么解决?方法:重启,不管用。。。。。。查看日志,/var/log/ 里面的NameNode 日志,发现有这么一段java.lang.IllegalArgumentException: Unable to determine service address for namenode 'namenode87'我们继续到配置文件中找n...

2020-02-25 16:37:43 2999 1

转载 Linux VIM 编辑常用命令

Linux vi/vim所有的 Unix Like 系统都会内建 vi 文书编辑器,其他的文书编辑器则不一定会存在。但是目前我们使用比较多的是 vim 编辑器。vim 具有程序编辑的能力,可以主动的以字体颜色辨别语法的正确性,方便程序设计。相关文章:史上最全Vim快捷键键位图 — 入门到进阶什么是 vim?Vim是从 vi 发展出来的一个文本编辑器。代码补完、编译及错误跳转等方便编程...

2020-02-25 14:23:03 207

转载 Linux 查看系统资源的命令(CPU,内存,磁盘,网络)

Linux 查看系统资源的命令1. CPUtop 命令命令 参数d:指定更新的间隔,以秒计算。q:没有任何延迟的更新。如果使用者有超级用户,则top命令将会以最高的优先序执行。c:显示进程完整的路径与名称。S:累积模式,会将己完成或消失的子行程的CPU时间累积起来。s:安全模式。i:不显示任何闲置(Idle)或无用(Zombie)的行程。n:显示更新的次数,完成后将会退出top...

2020-02-24 17:17:30 11001

原创 Impala 管理(准入控制)

Impala 管理(准入控制)1. 准入控制和查询队列​ 准入控制是Impala 的一个功能,为的是避免对一个繁忙的CDH集群产生过多的内存压力。​ 准入控制是一个轻量级的去中心化的系统,它适用于负载主要是Impala查询的集群,它以软限制的方式去控制Impala 相对稳定的方式去使用内存,而不是要么执行要么取消的方式限制资源的使用。​ 但是准入控制并不像YARN 那样那么了解集群的整体负...

2020-01-16 15:52:35 1273

原创 关于KUDU 的一些使用建议

关于KUDU 的一些使用建议1. Kudu 的分区字段选择:正常的分区字段就是Kudu 表的主键字段进行范围分区或者hash分区,这里建议加上一个 与业务时间有关的字段作为联合主键,这样可以缓解数据倾斜。有人建议使用 主键进行hash 分区,时间字段进行范围分区。2. WAL 的存储目录:官方建议,WAL最好是单独用闪存盘给Kudu 的WAL 搞一个存储目录。但是一般能给到SSD就算不错...

2020-01-15 17:06:28 1039

原创 Impala 三大组件:Impala Daemon, Impala Statestore, Impala Catelog

Impala 三大组件:1. Impala Daemon:功能:​ 负责读写数据文件,接受来自 Impala-shell, ODBC,Hue 和 JDBC 的查询请求,然后与集群中的其他节点分布式并行工作,将本节点的查询结果返回给中心协调者节点。查询流程:我们向一个 Impalad 发送一个 SQL,这个Impalad 就要负责解析sql, 生成查询计划树,将执行计划分发给本节点的 ...

2020-01-15 11:37:05 3398 3

原创 Impala 的广播式关联 和 分区后散列关联 , Impala 如何计划并执行分布式关联查询

Impala 的广播式关联 和 分区后散列关联Impala 如何计划并执行分布式关联查询广播式关联:Impala 默认的关联方式就是广播式关联,它的原理是 在多张表进行关联时,将最小的数据集发送到执行sql 计划的 Impalad 中,Impalad接收到数据以后,按照哈希表的方式存放到内存中,在就近读取大的表数据,进行匹配。分区后散列关联:这个关联方式,会将sql 中涉及的表按照相同的...

2020-01-13 15:07:13 552

原创 python 字符串中插入变量

比较好的方法是使用 python的 format() 方法>>> ss = '{name} is a {animal}'.format(name='TOM', animal='cat')>>> ss'TOM is a cat'亦args = { 'name': 'TOM', 'animal': 'cat',}>>> ss...

2019-12-19 15:43:52 392

原创 大学时拍的微电影,记录一下,以后别忘了。

谁的大学不迷茫

2019-08-15 15:07:13 330

原创 pycharm 怎么进行多行编辑

方法一:在代码界面,点击鼠标右键,然后按住鼠标左键下拉选择就行了方法二:直接按下快捷键,alt+shift+insert,然后长按鼠标左键下拉即可进入多行编辑模式。...

2019-07-09 15:43:36 7947

原创 kudu 的基本架构 、存储结构与读写原理

kudu 的基本架构与存储结构1. 基本架构TMaster and TServerTMaster 主要用来管理元数据,即tablet 和 表的基本信息,监听TServer的状态,TMaster之间通过raft协议进行数据同步TServer 主要用来管理tablet 。tablet 负责这一张表的某块内容的读写,接受其他tablet leader 传来的同步信息,至于什么是tablet,...

2019-03-19 18:54:22 3406 4

原创 impala 查询计划树

impala 查询计划树impala介绍MPP什么意思:即大规模并行处理impala 是一种新型的MPP查询引擎,每一个impala执行的sql,可能同时在多个工作节点上进行运算,每一个节点执行查询任务的一部分,然后通过网络通信传递给下一个子任务,中间数据尽可能不落地。impala可以处理的数据:HBASE,HDFS,KUDUimpala架构这个架构图说明了impala的架构,也说明...

2019-03-19 18:51:24 2007 2

原创 将csv 文件导入到impala 和 kudu中

将csv 文件导入到impala 和 kudu中具体实现方法:一、对于impala表前提:因为impala不支持导入本地文件(和hive有点区别),所以要先上传到hdfs上,再加载数据(impala 里面,local是保留字)hadoop fs -mkdir -p /tmp/csvhadoop fs -put /home/youjun/impala.csv /tmp/csvhadoo...

2019-03-19 18:13:31 3732

原创 IDEA 中无法导入自己写的模块问题

选中文件夹后再右键,将你的文件夹设置问source root,就可以导入这个模块文件了

2019-03-19 09:54:34 2766

原创 pip install impyla安装时遇到错误

Command “/Library/Frameworks/Python.framework/Versions/3.7/bin/python3 -u -c “import setuptools, tokenize;file=’/private/var/folders/zr/jstysgxd1_j6g66dcjlrfw7m0000gn/T/pip-install-gfal4jw8/thriftpy/s...

2019-03-12 16:32:42 1200

原创 Python pip怎么解决You are using pip version 10.0.1, however version 18.0 is available.

Python pip怎么解决You are using pip version 18.1, however version 19.0 is available.**在终端中输入这个命令:python3 -m pip install --upgrade pip完成pip的更新**

2019-03-12 16:05:13 1292

原创 echarts 实时数据展示

echarts 实时数据展示1. 构建一个web项目​ 完成从后台拉取MySQL的数据到前端的准备工作,我自己是用的ssm框架,这里是属于web的工作,不过多赘述。2.先写一个简单的echarts展示,测试下你的echarts是否可用1) 到echarts的中文官网上下载ecahrtsde 的4.2最新版,不用去apache上下载,咱们有中文版的,一般下载源代码或者完整版这两种都可以2...

2019-01-19 10:21:18 8542 3

原创 修改HDFS上的文件权限

在IDEA中使用Java API 或者 Scala API 操作HDFS的时候,有时候会报这个错误:Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): Permission denied: user=Apache_Jerry, access=WRI...

2018-12-20 20:52:40 17067

原创 用 ntpdate 来修改linux 的系统时间,同步集群的时间

命令:ntpdate ntp.aliyun.com若是没有这个ntpdate 命令,就自己下载安装yum -y install ntpdate阿里雲的其他的时间服务器:Unix/linux类:ntp.aliyun.comntp1.aliyun.comntp2.aliyun.comntp3.aliyun.comntp4.aliyun.comntp5.aliyun.comn...

2018-11-13 09:03:34 476

原创 standalone-cluster模式下出现 NoSuchFileException

1.出现的问题是:NoSuchFileException很郁闷,明明就在那,可是他就是找不到。。。2.解决方法: 将jar包上传至hdfs 上然后运行如下命令3.控制台不会打印太多的东西,我们可以进入8080 这里查看集群的运行状况,可以看见有一个节点正在running4.等了一会running 结束,任务finished5. 进入50070 这个页面查看自己定义的输出目录,会...

2018-10-25 21:03:18 1198

原创 ETL简介和关于ETL的一些问题

关于 E T L 的 相关内容:什么是数据挖掘(工程师)数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。什么是ETL(工程师) — 数据仓库技术Extra...

2018-10-25 08:40:50 955

原创 scala 学习总结

Scala 学习备忘要点一、scala 基础Scala 中所有的值都是有类型的,包括数值和函数Scala 中 不需要带 分号 ;中括号代表 [ ] : 泛型“+” ,“ - ” ,“ * ” ,“ / ” 在 Scala 里面都只是 方法定义方法:def 方法名称 (参数列表) 返回类型 方法体def add(x:Int,y:Int) :Int...

2018-10-24 12:51:50 473

原创 Hadoop 生态圈各个模块的启动命令 以及 简单配置 的配置要点(CentOS 6.9)

一、Hadoop1.1 hadoop 的启动命令在 /etc/profile 里面自己配好环境变量start-dfs.sh # 启动hdfsstart-yarn.sh # 启动yarnstart-all.sh # 启动HDFS 和 yarnweb上可以通过 50070 和 8088 两个端口访问 hdfs 和 yarn 。1.2 hadoop 的配置...

2018-10-13 17:52:44 324

原创 移动公司收费项目的总结

移动公司开户和收费的项目总结:个人的总结,项目经验不多,坑定有错误和疏漏。1.批量修改和批量删除的重点批量删除1.在批量删除里面,难得是如何将被选中的多选框(checkbox)按钮的值一次性的都拿出来,并传到后台中去。 -这里我们选择使用数组,后台的Controller层中,用一个String{] 或 Integer[] 等等数组来承载这些被选中的值2.后台拿到这些值以后就好...

2018-10-11 20:05:04 269

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除