菜农1024-CSDN博客

原创 Hadoop 集群搭建，云服务器

先安装JDK与Hadoopcd $HADOOP_HOME/etc/hadoop=============core-site.xml fs.default.name hdfs://master:9000 hadoop.tmp.dir file:/opt/module/hadoop-3.3.1/temp io.file.buffer.size 131072 ===========hdfs-site.xml dfs.nam.

2022-03-12 17:16:58 3397

原创安装tensorflow

pip install -U --ignore-installed wrapt enum34 simplejson netaddr --trusted-host mirrors.aliyun.com --index-url http://mirrors.aliyun.com/pypi/simple/ tensorflow

2022-02-26 21:01:44 203

转载 Spark SQL小文件问题解决。

https://www.jianshu.com/p/ddd2382a738a

2021-12-31 16:25:54 333

原创 Python机器学习初探

本文内容来自《Python大数据分析与机器学习商业案例实战》一书，作者是王宇韬、钱妍竹。本文纯属个人学习记录，如有侵权，告知即可删除。线性回归模型概念：利用线性拟合的方式探寻数据背后的规律。1.一元线性回归如何衡量实际值与预测值的接近程度？在数学上通过两者差值的平方和来进行衡量。差值越小就越接近。逻辑回归模型概念属于分类模型。对离散变量进行预测，其预测的变量并不是连续的，而是离散的一些类别。比如：预测一个人是否会违约、客户是否会流失。决策树模型概念基.

2021-12-25 11:31:37 1260

转载 Flink概念整理

**Flink事件时间、水印和迟到数据处理**介绍Flink的事件时间（event time）、水印（watermark）、乱序（out-of-order）、迟到数据（late element）这些概念。事件时间与水印所谓事件时间，就是Flink DataStream中的数据元素自身带有的、在其实际发生时记录的时间戳，具有业务含义，并与系统时间独立。很显然，由于外部系统产生的数据往往不能及时、按序到达Flink系统，所以事件时间比处理时间有更强的不可预测性。为了能够准确地表达事件时间的处理进度，就

2021-12-14 11:54:20 190

翻译 flink solt和并行度

简介Flink运行时主要角色有两个：JobManager和TaskManager，无论是standalone集群，flink on yarn都是要启动这两个角色。JobManager主要是负责接受客户端的job，调度job，协调checkpoint等。TaskManager执行具体的Task。TaskManager为了对资源进行隔离和增加允许的task数，引入了slot的概念，这个slot对资源的隔离仅仅是对内存进行隔离，策略是均分，比如taskmanager的管理内存是3GB，假如有两个个slot，那么

2021-12-08 14:10:56 808

翻译 Apache-Flink中的Java泛型与Lambda表达式

Q1：针对Java的泛型类型擦除，怎么将匿名内部类的实现方式改成lambda表达式的方式？参考：https://www.cnblogs.com/softlin/p/13549204.html

2021-12-01 10:44:42 196

转载 python多线程获取返回值

lock = threading.Lock()def is_even(value): with lock: if value % 2 == 0: print("True") print('value = {} : result = {}'.format(value,value % 2)) return True else: print("False")

2021-06-29 21:25:35 946

原创 pip3 未找到命令

使用 sudo apt-get install python3-pip如果CentOS的软件安装工具不是apt-get则：sudo yum install python3-pip

2021-06-07 15:03:56 2961

转载 spark 分区 partition的理解

原文链接：https://www.cnblogs.com/jiangxiaoxian/p/9539760.html我们常认为coalesce不产生shuffle会比repartition 产生shuffle效率高，而实际情况往往要根据具体问题具体分析，coalesce效率不一定高，有时还有大坑，大家要慎用。coalesce 与 repartition 他们两个都是RDD的分区进行重新划分，repartition只是coalesce接口中shuffle为true的实现（假设源RDD有N个分区，需要重新划分

2021-06-05 21:21:08 453

转载解决Spark在处理parquet文件时，默认将TimeStamp存为int96，出现二进制数据的情况

在创建spark对象时，配置config，即可原链接：https://www.thinbug.com/q/56582539

2021-05-31 11:55:50 966

转载 Spark实例创建及参数解释

def get_sparkSession(myApp): conf = (SparkConf().setMaster("yarn").setAppName(myApp) .set("spark.executor.memory", "2g") .set('hive.exec.dynamic.partition', 'true') .set('spark.sql.autoBroadcastJoinThreshold','-1')

2021-01-06 09:04:40 613 1

翻译数据接入相关总结

一.数据源在service blob时：需求：将上游blob的数据搬运到目标blob中接入方案：使用Azure官方的连接blob方式获取相关blob操作权限代码如下：步骤1.使用Azure官方的连接blob方式获取相关blob操作权限步骤2.调用API,传入相关连接信息参数（ACCOUNT_NAME,ACCOUNT_KEY），得到block_blob_service对象 # 上游blob blob_conf_name = 'blob' account_name =

2021-01-05 09:33:57 718

翻译 Sqoop 相关总结

1.sqoop命令的执行方式：(1). Python : retCode = subprocess.call(sqoopCmd, shell=True)eg: sqoopCmd = "sqoop import " \ + "--connect '" + dbConnStr + "' " \ + "--username '" + dbUser + "' " \ + "--password '" + dbPas

2020-12-24 09:05:33 210

翻译 Spark 概念阐述

1.概述(Master,Worker,Driver,Exector)1，master和worker节点搭建spark集群的时候我们就已经设置好了master节点和worker节点，一个集群有多个master节点和多个worker节点。master节点常驻master守护进程，负责管理worker节点，我们从master节点提交应用。worker节点常驻worker守护进程，与master节点通信，并且管理executor进程。PS：一台机器可以同时作为master和worker节点（举个例子：你有

2020-12-24 08:50:37 254

Wumo的博客