自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 Hadoop 集群搭建,云服务器

先安装JDK与Hadoopcd $HADOOP_HOME/etc/hadoop=============core-site.xml fs.default.name hdfs://master:9000 hadoop.tmp.dir file:/opt/module/hadoop-3.3.1/temp io.file.buffer.size 131072 ===========hdfs-site.xml dfs.nam.

2022-03-12 17:16:58 3341

原创 安装tensorflow

pip install -U --ignore-installed wrapt enum34 simplejson netaddr --trusted-host mirrors.aliyun.com --index-url http://mirrors.aliyun.com/pypi/simple/ tensorflow

2022-02-26 21:01:44 142

转载 Spark SQL小文件问题解决。

https://www.jianshu.com/p/ddd2382a738a

2021-12-31 16:25:54 235

原创 Python机器学习初探

本文内容来自《Python大数据分析与机器学习商业案例实战》一书,作者是王宇韬、钱妍竹。本文纯属个人学习记录,如有侵权,告知即可删除。线性回归模型概念:利用线性拟合的方式探寻数据背后的规律。1.一元线性回归如何衡量实际值与预测值的接近程度?在数学上通过两者差值的平方和来进行衡量。差值越小就越接近。逻辑回归模型概念属于分类模型。对离散变量进行预测,其预测的变量并不是连续的,而是离散的一些类别。比如:预测一个人是否会违约、客户是否会流失。决策树模型概念基.

2021-12-25 11:31:37 1174

转载 Flink概念整理

**Flink事件时间、水印和迟到数据处理**介绍Flink的事件时间(event time)、水印(watermark)、乱序(out-of-order)、迟到数据(late element)这些概念。事件时间与水印所谓事件时间,就是Flink DataStream中的数据元素自身带有的、在其实际发生时记录的时间戳,具有业务含义,并与系统时间独立。很显然,由于外部系统产生的数据往往不能及时、按序到达Flink系统,所以事件时间比处理时间有更强的不可预测性。为了能够准确地表达事件时间的处理进度,就

2021-12-14 11:54:20 159

翻译 flink solt和并行度

简介Flink运行时主要角色有两个:JobManager和TaskManager,无论是standalone集群,flink on yarn都是要启动这两个角色。JobManager主要是负责接受客户端的job,调度job,协调checkpoint等。TaskManager执行具体的Task。TaskManager为了对资源进行隔离和增加允许的task数,引入了slot的概念,这个slot对资源的隔离仅仅是对内存进行隔离,策略是均分,比如taskmanager的管理内存是3GB,假如有两个个slot,那么

2021-12-08 14:10:56 731

翻译 Apache-Flink中的Java泛型与Lambda表达式

Q1:针对Java的泛型类型擦除,怎么将匿名内部类的实现方式改成lambda表达式的方式?参考:https://www.cnblogs.com/softlin/p/13549204.html

2021-12-01 10:44:42 151

转载 python多线程获取返回值

lock = threading.Lock()def is_even(value): with lock: if value % 2 == 0: print("True") print('value = {} : result = {}'.format(value,value % 2)) return True else: print("False")

2021-06-29 21:25:35 898

原创 pip3 未找到命令

使用 sudo apt-get install python3-pip如果CentOS的软件安装工具不是apt-get则:sudo yum install python3-pip

2021-06-07 15:03:56 2866

转载 spark 分区 partition的理解

原文链接:https://www.cnblogs.com/jiangxiaoxian/p/9539760.html我们常认为coalesce不产生shuffle会比repartition 产生shuffle效率高,而实际情况往往要根据具体问题具体分析,coalesce效率不一定高,有时还有大坑,大家要慎用。coalesce 与 repartition 他们两个都是RDD的分区进行重新划分,repartition只是coalesce接口中shuffle为true的实现(假设源RDD有N个分区,需要重新划分

2021-06-05 21:21:08 367

转载 解决Spark在处理parquet文件时,默认将TimeStamp存为int96,出现二进制数据的情况

在创建spark对象时,配置config,即可原链接:https://www.thinbug.com/q/56582539

2021-05-31 11:55:50 700

转载 Spark实例创建及参数解释

def get_sparkSession(myApp): conf = (SparkConf().setMaster("yarn").setAppName(myApp) .set("spark.executor.memory", "2g") .set('hive.exec.dynamic.partition', 'true') .set('spark.sql.autoBroadcastJoinThreshold','-1')

2021-01-06 09:04:40 431 1

翻译 数据接入相关总结

一.数据源在service blob时:需求:将上游blob的数据搬运到目标blob中接入方案:使用Azure官方的连接blob方式获取相关blob操作权限代码如下:步骤1.使用Azure官方的连接blob方式获取相关blob操作权限步骤2.调用API,传入相关连接信息参数(ACCOUNT_NAME,ACCOUNT_KEY),得到block_blob_service对象 # 上游blob blob_conf_name = 'blob' account_name =

2021-01-05 09:33:57 640

翻译 Sqoop 相关总结

1.sqoop命令的执行方式:(1). Python : retCode = subprocess.call(sqoopCmd, shell=True)eg: sqoopCmd = "sqoop import " \ + "--connect '" + dbConnStr + "' " \ + "--username '" + dbUser + "' " \ + "--password '" + dbPas

2020-12-24 09:05:33 158

翻译 Spark 概念阐述

1.概述(Master,Worker,Driver,Exector)1,master和worker节点搭建spark集群的时候我们就已经设置好了master节点和worker节点,一个集群有多个master节点和多个worker节点。master节点常驻master守护进程,负责管理worker节点,我们从master节点提交应用。worker节点常驻worker守护进程,与master节点通信,并且管理executor进程。PS:一台机器可以同时作为master和worker节点(举个例子:你有

2020-12-24 08:50:37 172

翻译 牛客网SQL_68_每个人的最近登录日期

select round(count(l.date)/count(*),3) as pfrom (select user_id,min(date) as date from login group by user_id) min_dataleft joinlogin lon min_data.user_id = l.user_id and l.date = date_add(min_data.date,interval 1 day)总结:(1).left join 中右表的统计的是匹配成功的.

2020-12-23 09:16:14 96

翻译 牛客网SQL_65_邮件的失败概率

题目描述总结:sqlserver中的join = inner join,注意关联后的状态,关联后的状态依然是主表中的id,直接在关联后的表中进行条件限制即可。

2020-12-22 09:21:25 135

翻译 牛客网SQL_12_获取所有部门中当前员工薪水最高的相关信息

SELECT d1.dept_no, d1.emp_no, s1.salaryFROM dept_emp as d1INNER JOIN salaries as s1ON d1.emp_no=s1.emp_noAND d1.to_date='9999-01-01'AND s1.to_date='9999-01-01'WHERE s1.salary in (SELECT MAX(s2.salary)FROM dept_emp as d2INNER JOIN salaries as s2ON.

2020-12-21 12:02:50 94

翻译 数仓各类表统计归纳

一.事务型事实表事务性事实表主要特点是只会新增不会变化,一般有分区二.周期型快照事实表三.累积型快照事实表该表会包含一个周期,如订单,有未支付,已支付等,有一个周期性

2020-12-16 22:48:25 352

翻译 牛客网之考试分数(5)

牛客网之考试分数(5)一.题目概述:牛客每次考试完,都会有一个成绩表(grade),如下:第1行表示用户id为1的用户选择了C++岗位并且考了11001分。。。第8行表示用户id为8的用户选择了前端岗位并且考了9999分请你写一个sql语句查询各个岗位分数的中位数位置上的所有grade信息,并且按id升序排序,结果如下:解释:第1行表示C++岗位的中位数位置上的为用户id为2,分数为10000,在C++岗位里面排名是第2第2,3行表示Java岗位的中位数位置上的为用户id为4,5,分数

2020-12-16 22:25:13 2351

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除