大数据
维正
专业通信,从事于人工智能,大数据,大模型。
展开
-
APPARENT DEADLOCK Creating emergency threads for unassigned pending tasks
在迁移CDH集群的元数据库后,重新启动集群失败,报APPARENT DEADLOCK!!! 错误原创 2022-08-26 09:56:09 · 2988 阅读 · 2 评论 -
clickhouse-common-static signature check fail
clickhouse-common-static signature check fail原创 2022-07-16 11:00:15 · 389 阅读 · 0 评论 -
linux离线部署单机版clickhouse
centos7离线安装部署单机版的clickhouse。原创 2022-07-16 10:51:53 · 709 阅读 · 0 评论 -
在centos系统上离线安装python3
用于centos离线编译安装python自己期望的版本原创 2022-07-16 10:00:31 · 1796 阅读 · 0 评论 -
beeline 连接,参数报错 Cannot modify ** at runtime. It is in the list of parameters that can‘t be modified
CDH 大数据集群,使用beeline 连接hiveserver2时,后面跟spark的一些参数时。报错Failed to open new session: java.lang.IllegalArgumentException: Cannot modify hive.spark.client.server.connect.timeout at runtime. It is in the list of parameters that can't be modified at runtime or is p原创 2021-05-12 10:01:50 · 2510 阅读 · 0 评论 -
spark-shell 提交session报错Attempted to request executors before the AM has registered!
部署CDH6的客户端后,使用spark-shell --master yarn 进入spark后报Attempted to request executors before the AM has registered! 如下错误:[test_user@user1 ~]$ spark-shell --master yarnSetting default log level to "WARN".To adjust logging level use sc.setLogLevel(newLe...原创 2021-04-16 15:09:36 · 1187 阅读 · 5 评论 -
YARN的执行流程
client向yarn提交作业 yarn为提交的作业分配一个AM(container) yarn 与对应的NM通信,要求启动AM AM向RM注册,并为各个任务向RM申请资源,并监控各个任务的运行情况 AM采用轮训的方式通过RPC协议和RM通信 AM申请到资源后,和对应的NM通信,并要求NM启动对应的task NM启动作业对应的task...原创 2018-09-11 11:37:17 · 306 阅读 · 0 评论 -
B树(B-tree, 平衡的多路查找树)的相关知识
目录多路搜索树B树B+树:多路搜索树首先,介绍一下2-3树,指的是其中每一个节点2结点--有两个孩子或者3结点--三个孩子或者没有孩子,2节点指的是该节点有一个元素和两个孩子OR没有孩子,3节点指的是该节点有两个元素(一大一小)和三个孩子OR没有孩子。特点是所有叶子节点都在同一层,插入和删除节点都必须保证顺序和性质不变。左子树小于根节点元素小于中子树小于右根节点元素小于左子...原创 2018-08-31 22:31:41 · 727 阅读 · 0 评论 -
数据挖掘
决策树:贝叶斯定理: 朴素贝叶斯:决策树:ID3:熵:Gain大的点选择为分开点 神经网络:梯度下降法:BP算法网络例子:Online Demo http://neuron.eng.wayne.edu/software.htmlhttp://facstaff.cbu.edu/~pong/ai/hopfield/hopfieldap...原创 2018-08-13 22:24:54 · 958 阅读 · 0 评论 -
数据预处理
Data Cleansing 空值 不一致性 冗余数据 数据类型 缺失数据: 离群点分析:ROF,A点到临近点的值比上B点到临近点距离的值 重复数据:人口信息判断是否相同用滑动窗口 Data Transformation Now we have an eror free dataset Stil needs to be standardized Type Conver...原创 2018-08-11 12:38:42 · 380 阅读 · 0 评论 -
Hadoop wordcount 小实例
step one:启动hadoop集群;进入hadoop,为防止进入错误,可以先:cd / 进入根目录后,然后 cd ,就会进去hadoop下面创建一个文件,或者rz上传一些文件,touch test.guyong.cn vi test.guyong.cn //然后再里面写一些内容把创建的文件上传到HDFS中,hadoop fs -put test.guyong.cn /...原创 2018-07-25 16:45:14 · 215 阅读 · 0 评论