自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

俞驰的博客

读书起家之本,勤俭治家之源,和顺齐家之风,谨慎保家之气,忠孝传家之方...

原创 大数据组件的各种协议与作用

协议 作用 spark:// spark的standalone模式 hdfs:// 分布式文件集群 hiveserver2 beeline连接的前提 thrift/thrift2 python连接hbase的前提

2020-05-31 13:03:56 22 0

原创 Hbase数据倾斜问题处理手段汇总(持续更新中)

[1]HBase 中加盐(Salting)之后的表如何读取:协处理器篇 [2]Hbase热点问题、数据倾斜和rowkey的散列设计 [3]HBase优化之避免数据倾斜 [4]大数据学习笔记——HBase面试题 [5]hbase热点问题(数据倾斜)解决方案---rowkey散列和预分区设计 ...

2020-05-30 18:07:22 112 0

原创 数据仓库在HDFS上存储数据的路径(持续更新中)

组件名称 WEB UI路径 HDFS 路径 Hive内表t1 http://desktop:9870/explorer.html#/user/hive/warehouse/t1 hdfs://Desktop:9000/user/hive/warehouse/t1 H...

2020-05-29 22:53:35 87 0

原创 把hive数据导出至mysql

mysql操作如下: create databasesqoop_hbase; use sqoop_hbase; CREATE TABLE book(id INT(4) PRIMARY KEY NOT NULL AUTO_INCREMENT,NAME VARCHAR(255) NOT NULL,...

2020-05-29 22:11:30 39 1

原创 ETL的数据同步工具调研(持续更新中)

扯白了,数据同步工具就是"导数据 "的 名称 社区响应 SQOOP 更新缓慢,对于hbase2.x以上版本使用时需要老版本的jar包 OTTA github的issue已经很少回应,repository本身很少更新 DataPipeline ...

2020-05-26 16:46:59 40 0

转载 mysql优化积累(持续更新中)

场景 解决方案 参考连接 SQL的生命周期 从连接到释放连接 大表数据查询 主从复制 读写分离 垂直拆分 水平切分 超大分页 数据库层面 需求层面 延迟关联或者子查询优化 ...

2020-05-22 21:38:40 34 0

原创 大数据组件中的竞品/等同地位关系(持续更新中)

一些大数据组件在一定程度上是可以互相取代的,这里进行一些整理。 常见大数据组件 竞品 用途 HDFS FastDFS(已经淘汰) 分布式文件系统 MapReduce Spark 集群计算 Hive Cloudera Impala/Apache...

2020-05-22 20:41:12 50 0

原创 NIFI从mysql导入Hbase

端口是自定义的 http://desktop:9091/nifi/ 此时没配置完,有页面会提示invalid. 然后点击右边的箭头得到下面的图: 然后点击齿轮,填写表格如下: Database Connection URL jdbc:mysql://loca...

2020-05-16 15:19:30 70 0

原创 大数据集群中数据互相导通流程汇总(持续更新中)

Hbase HDFS Mysql Hive Hbase - HDFS - Mysql - Hive -

2020-05-16 09:43:21 69 0

原创 集群状态正常时需要的jps进程+是否需要部署到各个节点(持续更新中)

集群 jps进程 HDFS HistoryServer NameNode DataNode SecondaryNameNode Yarn NodeManager ResourceManager Spark...

2020-05-16 08:33:54 72 0

原创 spark中各种数量的确定和查询(持续更新中)

数量 决定/设置方式 查询方式 partition数量 spark.createDataFrame(data).rdd.getNumPartitions task数量 executor数量 并发度 job...

2020-05-13 19:18:05 56 0

原创 spark中各类key的用法汇总(持续更新中)

启动方式: spark-shell --master yarn 具体代码: wordCountsWithReduce.collect() Transformation算子: 算子操作前的变量 算子操作前的变量类型 算子 算子的作用 算子操作后,变量类型 ...

2020-05-09 18:21:26 88 0

原创 Spark中Data skew(数据倾斜)的常用处理手段(Java+Python+Scala三种接口完整代码,持续更新中)

---------------------------------------------------------起因---------------------------------------------------------------------- 代码中shuffle的算子存在的地方,...

2020-05-08 14:11:13 103 0

原创 spark和hadoop升级记录(持续更新中)

昨晚从spark-2.3.1-bin-hadoop2.7升级到spark-3.0.0-preview2-bin-hadoop3.2 基本结论是: /etc/hosts不用修改 ~/.bashrc中路径改下(就是和spark相关的,spark-2.3.1-bin-hadoop2.7改成spar...

2020-05-07 12:23:44 79 0

原创 Spark集群周边的Web UI设置与打开的条件(持续更新中)

下面是变量名: 变量 取值 所在文件 作用 spark.eventLog.enabled true spark-defaults.conf 开启日志记录 spark.eventLog.dir 我这里设置的是hdfs路径.(也可以是本地路径如fil...

2020-05-04 11:17:19 151 0

原创 spark-submit提交参数说明以及与yarn-site.xml中参数的相互约束关系+spark运行架构图解(持续更新中)

先复习下yarn-site.xml中几个参数的含义[3]: 配置文件 配置设置 默认值 计算值 yarn-site.xml yarn.nodemanager.resource.memory-mb 8192 MB = containers * RAM-per...

2020-05-01 21:08:23 230 0

原创 Flask/Django/Tornado语法对比(持续更新中)

返回页面的方式 https://blog.csdn.net/hu827250322/article/details/100175362

2020-04-11 11:58:51 32 0

原创 Django购物网站使用说明

#------------------使用说明----------------------------- 注册(可以随意注册,但是密码长度检测没有做,需要8位以上,否则登录会报错) 登录 忘记密码/密码重置 我想上架新桌游(用户名:admin,密码:admin) 发货(用户名:admin...

2020-03-26 16:53:23 154 0

原创 最近奖牌赛的merge line(持续更新)

只列出奖牌赛,少于十天以及大于一年的不列出 Name merge line data size 打算 NFL Big Data Bowl November 27, 2019 11:59 pm UTC 55M 2 Peking University/...

2019-10-23 12:03:19 258 0

原创 TPU和GPU跑模型时间统计(持续更新中)以及TPU Research Cloud的申请

下面记录的训练时间就是所有数据开始训练到生成模型为止的时间,代码中都不包含交叉验证等策略。 已经尝试过的实验如下: 框架 数据集 代码 加速设备 平台 耗时 ResNet cifar10 TPU运行Cifar10.ipynb TPU ...

2019-09-22 16:54:00 866 0

转载 在python的dataframe中进行类似于mysql的join操作(持续更新)

Mysql准备工作: T1 T2 T3 操作 mysql mysql结果 inner join select * from T1 inner join T2 on T1.user_id = T2.user_id left outer joi...

2019-09-10 13:08:22 216 0

转载 行业职业病

工作 疾病 烙铁 哮喘 高频行业 杀精 纺织 肺癌 金矿、煤矿工人,钢铁厂工作 尘肺 养鸟 肺纤维化 造船厂工作 间皮瘤

2019-08-12 19:13:22 92 2

转载 linux专用的opencv下载链接(持续更新)

目前拥有的压缩包如下: opencv opencv-contrib opencv-4.1.1.tar.gz opencv_contrib-4.0.1.tar.gz opencv_contrib-4.0.0-rc.tar.gz opencv_contrib-4.0...

2019-08-06 15:36:51 1946 0

原创 不要再次进行阅读的计算机论文与理由(持续更新中)

这篇博客主要记载一些没有代码实现的计算机论文,并且确保在理论上也不值得读的论文的汇总。 《Negative eigenvalues of the hessian in deep neural networks》-根据一作本人回复,连他自己都不能在家里复现,需要使用谷歌特定的脚本以及一堆设备才能复现...

2019-07-31 18:42:23 303 0

原创 程序员兼职网站调研

程序员类的兼职工作调研: 程序员客栈:要求工作三年以上 猿急送:面向传统开发 码市:很扯淡的地方是需要交保证金才能接一些项目。

2019-07-24 17:58:59 227 0

原创 linux下运行的游戏(持续更新中)

0 A.D. Ubuntu Linux 18.10下面安装魔法门之英雄无敌3

2019-07-03 15:00:37 1600 0

原创 内存双通道不兼容举例以及解决方案.

知乎上碰到两种不兼容的. ----------------------------------------------------------------------------------- 一种是: 华硕K555LD4210 板载内存4G DDR3L(主板上焊死)+独立内存条4G DD...

2019-05-25 16:37:46 1608 0

原创 知乎上-翻车的笔记本

玩不到两年就坏掉的游戏本如下: 华硕FL8000UQ 华硕s5100 华硕Fz50V z8-cr7p1(離上市時間不到六個月有知乎網友吐槽壞掉的) ##################################################### T490:新货屏幕坏点很多...

2019-05-23 12:47:18 236 1

原创 淘宝+天猫+闲鱼卖的翻新货店家汇总(持续更新)

丰文思数码专营店: 卖翻新的海力士内存条。 不适合老机子组双通道,一定概率黑屏、蓝屏以及开不了机,若买单条则推荐购买, 是目前卖海力士内存条最便宜的天猫店家,接近闲鱼最低价。 闲鱼卖家: mingo44 翻新的金士顿内存条,截图如下: 一开始开不了机,后来两个内存条改变插入的顺序就顺利开机了,...

2019-04-19 11:11:08 626 0

原创 论文原文解读汇总(持续更新中)

以下是自己对一些论文原文的解读: 机器学习: 《XGBoost: A Scalable Tree Boosting System》 《CatBoost:gradient boosting with categorical features support》-2018 《LightGBM:A Hig...

2019-01-06 21:21:47 459 0

转载 带圆圈的数字和markdown常用表达式记录

大括号(记得两边都加上$): p=\left{ \begin{aligned} x & = & \cos(t) \ y & = &...

2018-11-13 21:49:34 3000 0

原创 python2与python3代码互相转化时注意事项

print不同: python2可以没括号 python3必须有括号 浅拷贝copy用法不同 python3的用法是a=b.copy() python2的用法是a=copy.copy(b) 浮点计算不同 python2中2/3=0(想要小数的话,需要把分子和分母用float进行转化) python...

2018-10-12 21:40:11 267 0

原创 ERROR [main] tez.DagUtils: Could not find the jar that was being uploaded(没有解决)

hive on tez 出现如下报错: 错误场景序号 启动命令 终端报错 $HIVE_HOME/logs/hive.log ① hive --service metastore hiveserver2 无 [main] c...

2020-06-02 19:11:38 12 0

原创 alias中&&后面的命令不执行的问题(没有解决 )

alias startmeta="hive --service metastore&&hiveserver2 &" 其中&&表示,前面一句命令执行成功才会执行后面一句

2020-06-02 18:53:59 15 0

原创 2020年六月份qq邮箱代收搜狐邮箱

qq邮箱如下设置,密码是sohu邮箱的独立密码,需要绑定手机才能活得sohu邮箱的独立密码。

2020-06-02 12:04:35 30 0

转载 查看hive中某个表中的数据、表结构及所在路径

查看hive中action_data_myisam表中的数据、表结构及所在路径 1.客户端进入hive环境:hive 2.查看表数据,鉴于数据量大,这里只显示前五条:select * from action_data_myisam limit 5; 3.查看表结构:desc action_d...

2020-06-01 21:50:40 22 0

原创 [ERROR] bower xxx解决方案

编译tez的时候出现如下报错: [ERROR] bower ember-cli-shims#0.0.6 invalid-meta for:/tmp/appleyuchi/bower/1b3f6982d79d1ec37bf564c2aa592dce-9260-cAoRa4/bower.j...

2020-06-01 17:52:47 18 0

转载 cannot find symbol [ERROR] symbol: class DistributedFileSystem

编译tez时,由于使用的是hadoop3.1.2 所以出现以下错误, [ERROR] COMPILATION ERROR : [INFO] ------------------------------------------------------------- [ERROR] /home/a...

2020-06-01 17:25:19 35 0

原创 org.apache.maven.plugin.MojoExecutionException: protoc version is libprotoc 3.6.1, expected versio

在编译tez的时候碰到这个问题: ubuntu19.10的系统,apt 默认安装3.6.10的protoc wget https://github.com/google/protobuf/releases/download/v2.5.0/protobuf-2.5.0.tar.gz tar -...

2020-06-01 17:13:24 31 0

翻译 tez安装官方文档整理+翻译

Install/Deploy Instructions for Tez Replace x.y.z with the tez release number that you are using. E.g. 0.5.0. For Tez versions 0.8.3 and higher, Tez...

2020-06-01 16:05:20 23 0

提示
确定要删除当前文章?
取消 删除