- 博客(20)
- 收藏
- 关注
原创 Hadoop 集群搭建,云服务器
先安装JDK与Hadoopcd $HADOOP_HOME/etc/hadoop=============core-site.xml fs.default.name hdfs://master:9000 hadoop.tmp.dir file:/opt/module/hadoop-3.3.1/temp io.file.buffer.size 131072 ===========hdfs-site.xml dfs.nam.
2022-03-12 17:16:58 3341
原创 安装tensorflow
pip install -U --ignore-installed wrapt enum34 simplejson netaddr --trusted-host mirrors.aliyun.com --index-url http://mirrors.aliyun.com/pypi/simple/ tensorflow
2022-02-26 21:01:44 142
原创 Python机器学习初探
本文内容来自《Python大数据分析与机器学习商业案例实战》一书,作者是王宇韬、钱妍竹。本文纯属个人学习记录,如有侵权,告知即可删除。线性回归模型概念:利用线性拟合的方式探寻数据背后的规律。1.一元线性回归如何衡量实际值与预测值的接近程度?在数学上通过两者差值的平方和来进行衡量。差值越小就越接近。逻辑回归模型概念属于分类模型。对离散变量进行预测,其预测的变量并不是连续的,而是离散的一些类别。比如:预测一个人是否会违约、客户是否会流失。决策树模型概念基.
2021-12-25 11:31:37 1174
转载 Flink概念整理
**Flink事件时间、水印和迟到数据处理**介绍Flink的事件时间(event time)、水印(watermark)、乱序(out-of-order)、迟到数据(late element)这些概念。事件时间与水印所谓事件时间,就是Flink DataStream中的数据元素自身带有的、在其实际发生时记录的时间戳,具有业务含义,并与系统时间独立。很显然,由于外部系统产生的数据往往不能及时、按序到达Flink系统,所以事件时间比处理时间有更强的不可预测性。为了能够准确地表达事件时间的处理进度,就
2021-12-14 11:54:20 159
翻译 flink solt和并行度
简介Flink运行时主要角色有两个:JobManager和TaskManager,无论是standalone集群,flink on yarn都是要启动这两个角色。JobManager主要是负责接受客户端的job,调度job,协调checkpoint等。TaskManager执行具体的Task。TaskManager为了对资源进行隔离和增加允许的task数,引入了slot的概念,这个slot对资源的隔离仅仅是对内存进行隔离,策略是均分,比如taskmanager的管理内存是3GB,假如有两个个slot,那么
2021-12-08 14:10:56 731
翻译 Apache-Flink中的Java泛型与Lambda表达式
Q1:针对Java的泛型类型擦除,怎么将匿名内部类的实现方式改成lambda表达式的方式?参考:https://www.cnblogs.com/softlin/p/13549204.html
2021-12-01 10:44:42 151
转载 python多线程获取返回值
lock = threading.Lock()def is_even(value): with lock: if value % 2 == 0: print("True") print('value = {} : result = {}'.format(value,value % 2)) return True else: print("False")
2021-06-29 21:25:35 898
原创 pip3 未找到命令
使用 sudo apt-get install python3-pip如果CentOS的软件安装工具不是apt-get则:sudo yum install python3-pip
2021-06-07 15:03:56 2866
转载 spark 分区 partition的理解
原文链接:https://www.cnblogs.com/jiangxiaoxian/p/9539760.html我们常认为coalesce不产生shuffle会比repartition 产生shuffle效率高,而实际情况往往要根据具体问题具体分析,coalesce效率不一定高,有时还有大坑,大家要慎用。coalesce 与 repartition 他们两个都是RDD的分区进行重新划分,repartition只是coalesce接口中shuffle为true的实现(假设源RDD有N个分区,需要重新划分
2021-06-05 21:21:08 367
转载 解决Spark在处理parquet文件时,默认将TimeStamp存为int96,出现二进制数据的情况
在创建spark对象时,配置config,即可原链接:https://www.thinbug.com/q/56582539
2021-05-31 11:55:50 700
转载 Spark实例创建及参数解释
def get_sparkSession(myApp): conf = (SparkConf().setMaster("yarn").setAppName(myApp) .set("spark.executor.memory", "2g") .set('hive.exec.dynamic.partition', 'true') .set('spark.sql.autoBroadcastJoinThreshold','-1')
2021-01-06 09:04:40 431 1
翻译 数据接入相关总结
一.数据源在service blob时:需求:将上游blob的数据搬运到目标blob中接入方案:使用Azure官方的连接blob方式获取相关blob操作权限代码如下:步骤1.使用Azure官方的连接blob方式获取相关blob操作权限步骤2.调用API,传入相关连接信息参数(ACCOUNT_NAME,ACCOUNT_KEY),得到block_blob_service对象 # 上游blob blob_conf_name = 'blob' account_name =
2021-01-05 09:33:57 640
翻译 Sqoop 相关总结
1.sqoop命令的执行方式:(1). Python : retCode = subprocess.call(sqoopCmd, shell=True)eg: sqoopCmd = "sqoop import " \ + "--connect '" + dbConnStr + "' " \ + "--username '" + dbUser + "' " \ + "--password '" + dbPas
2020-12-24 09:05:33 158
翻译 Spark 概念阐述
1.概述(Master,Worker,Driver,Exector)1,master和worker节点搭建spark集群的时候我们就已经设置好了master节点和worker节点,一个集群有多个master节点和多个worker节点。master节点常驻master守护进程,负责管理worker节点,我们从master节点提交应用。worker节点常驻worker守护进程,与master节点通信,并且管理executor进程。PS:一台机器可以同时作为master和worker节点(举个例子:你有
2020-12-24 08:50:37 172
翻译 牛客网SQL_68_每个人的最近登录日期
select round(count(l.date)/count(*),3) as pfrom (select user_id,min(date) as date from login group by user_id) min_dataleft joinlogin lon min_data.user_id = l.user_id and l.date = date_add(min_data.date,interval 1 day)总结:(1).left join 中右表的统计的是匹配成功的.
2020-12-23 09:16:14 96
翻译 牛客网SQL_65_邮件的失败概率
题目描述总结:sqlserver中的join = inner join,注意关联后的状态,关联后的状态依然是主表中的id,直接在关联后的表中进行条件限制即可。
2020-12-22 09:21:25 135
翻译 牛客网SQL_12_获取所有部门中当前员工薪水最高的相关信息
SELECT d1.dept_no, d1.emp_no, s1.salaryFROM dept_emp as d1INNER JOIN salaries as s1ON d1.emp_no=s1.emp_noAND d1.to_date='9999-01-01'AND s1.to_date='9999-01-01'WHERE s1.salary in (SELECT MAX(s2.salary)FROM dept_emp as d2INNER JOIN salaries as s2ON.
2020-12-21 12:02:50 94
翻译 数仓各类表统计归纳
一.事务型事实表事务性事实表主要特点是只会新增不会变化,一般有分区二.周期型快照事实表三.累积型快照事实表该表会包含一个周期,如订单,有未支付,已支付等,有一个周期性
2020-12-16 22:48:25 352
翻译 牛客网之考试分数(5)
牛客网之考试分数(5)一.题目概述:牛客每次考试完,都会有一个成绩表(grade),如下:第1行表示用户id为1的用户选择了C++岗位并且考了11001分。。。第8行表示用户id为8的用户选择了前端岗位并且考了9999分请你写一个sql语句查询各个岗位分数的中位数位置上的所有grade信息,并且按id升序排序,结果如下:解释:第1行表示C++岗位的中位数位置上的为用户id为2,分数为10000,在C++岗位里面排名是第2第2,3行表示Java岗位的中位数位置上的为用户id为4,5,分数
2020-12-16 22:25:13 2351
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人