自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 java基础知识01

单元测试说明1)Junit一个java语言的单元测试框架,属于白盒测试,简单理解为可以取代java的main方法2)Junit属于第三方工具,需要导入jar包后才能使用代码实现package cn.liu.a_junit;import org.junit.After;import org.junit.Before;import static org.junit.Assert.*;public class ProductServerTest { ProductServer

2021-12-19 15:18:13 555

原创 java基础

常用的APIobject类说明1)object类是所有类的父类,多有的类都直接或者间接继承object类2)object类中只有一个空参的构造String类Stringbuilder类说明stringbuilder 和 string互转拼接字符串字符串反转数组元素的排序排序的实现方式一排序的实现方式二包装类说明:1- 基本类型的缺点: 基本类型无法确定边界值,Java就针对每一种基本类型提供了一个对应的引用类型, 这就是包装类.

2021-12-13 23:35:31 283

原创 spark-spark程序与pyspark交互-submit的参数-RDD的特性-初识对象数据集-算子类型

spark程序与pyspark交互流程交互的流程图说明spark-submit想关的参数spark-submit.sh脚本的作用用于将spark程序提交到指定的资源调度平台上进行运行,并且在提交过程中,可以对资源设置相关的配置信息基本参数--master :spark-core的内容(核心部分)RDD的基本介绍背景说明1)在早期的计算模型: 单机模型 比如: pandas , mysql 依赖于单个节点的性能 适用于: 少量数据集统计分析的处理

2021-11-08 22:36:11 1911

原创 spark-pyspark实现基本词频计算-ssh远程测试-spark on yarn配置/启动-pyspark两种部署方式

基于pycharm中pyspark的使用pycharm实现wordcount

2021-11-07 21:24:59 1914

原创 pyspark-spark基本的概念-spark本地模式-集群模式-HA模式

spark的基本概念spark基本概念spark就是一款大规模数据的统一分析引擎,基于内存计算,整个spark核心的数据架构是RDD(弹性分布式数据集,认为是列表list),由加州大学柏克莱发表,后贡献给了Apachespark框架中各个节点的通信采用的模块为:netty框架为什么说spark的运行效率比mr快一点?spark核心: 弹性分布式数据集(RDD), 借鉴了MR的分布式并行计算的思想, 但是解决了MR存在的一些问题, 会将中间的结果存储在内存中(如果存储不下, 也可以

2021-11-06 09:09:42 1458

原创 hive-关系运算符-存储压缩-hive调优

函数方法关系运算符和where配合使用完成条件判断查看函数方法show functions ;desc function extended isnull;关系运算符的方法-- 空值判断select '字段名' is null ;-- 模糊查询,以it开头的select 'itcast' like 'it%';-- 正则查询 \\w,查看首位是不是字母,数字就用\\dselect 'iicast' rlike '\\w\\w';select 'iicast' rlike 'i

2021-10-20 08:52:07 496

原创 hive-数据库操作-表的操作-数据的导入/写入-窗口查询

数据库操作数据库的创建-- 数据库的创建create database python;-- 指定数据库的备注和属性和位置create database python_db comment 'python_database' location '/hive2' with dbproperties ('name' = 'python');数据库的查看和删除-- 查看数据库desc database extended python;-- 查看数据库创建过程show create data

2021-10-17 22:29:12 684

原创 hive的语法-HiveDDL分区/分桶

hive中的语法hive数据类型原生数据类型数值型int, float,字符型string日期型data布尔型bool(ture/false)复杂数据类型array 数组map k-vstruct 结构体 {int, string,…}联合体数据类型转换隐式转换显示转换select cast(‘100’ as int)hive文件的读写定义: Hadoop中的文件数据和hive的表之间的关系#自定义delimited#自己指定ser

2021-10-15 21:04:50 365

原创 Hadoop-MapReduce计算过程-Yarn资源调度-HA的方式

MapReduce(分布式计算框架)计算思想:靠近数据源计算,处理的都是key-value形式设计思路:分而治之Mapreduce的计算过程1,按照块进行分片2,map每个分片会对应一个Map,运行map进行数据的进一步切割3,shuffle分区—(由map进行分区,默认有一个reduce分区), 排序—(由map或reduce进行排序),规约—(Hadoop完成),合并—(由map或reduce进行合并,按照key:list)4,Reduce获取map的键值对,把分散的键值对在内

2021-10-12 20:03:28 396

原创 机器--集成学习算法

集成学习算法类型Bagging 随机森林若干个弱学习器并行跑, 解决相同的问题, 最后大家投票特征抽样样本抽样Boosting串行模型Adaboost /GBDT/ xgboost lightGMB一步一步逼近最终改的目标训练出一个模型, 比较一下和最终目标之间的差别第二个模型, 实在第一个模型基础之上, 朝着差别去训练Stacking 串行 模型gbdt 特征筛选LR 预测概率集成学习模型的特点都可以输出特征重要性 feature_imp

2021-08-28 20:04:55 206

原创 机器--线性回归分析

线性回归的基本知识回归问题的模型评估- 求和((y_predict -y_test)^2)/mean- mse mean square error 误差平方求和求平均- mae mean absolute error 误差绝对值求和求平均- rmes mse 基础上开根号- 上面这些评估指标, 都是越小模型效果越好明确目标 假设函数 如果选择了线性回归, 那么这个假设函数就是 y = ax +b我们的训练数据不能都满足 同一个y = ax+ b 100 x面积 和 y

2021-08-25 21:03:55 128

原创 机器-机器学习的基本概念-KNN近邻算法

机器学习的基本概念数据分析的4个层次描述性分析(Descriptive当前的业务现状如何?)诊断性分析(Diagnostic某些问题为什么会发生?)预测性分析(Predictive我们的业务未来会咋样?预测分析会用到机器学习算法,帮助预测产品的销量如何?)规范性分析(Prescriptive我们要采取何种对策?机器学习算法可以帮助我们进行预测/规范性分析)机器学习能解决什么问题预测分析利用历史的数据, 结合统计学的知识, 发现规律找到规律之后, 利用跟这个规律来预测未来

2021-08-23 20:57:42 143

原创 机器学习--库存管理方法

pd.cut()的用法pd.cut取值是连续的字段, 切成几段,变成类别型字段bins 怎么切成几段 定义分段的区间labels 切成几段每一段ABC-XYZ库存管理清楚 ABC XYZ 在库存管理中的含义把商品/用户 按照某些字段 做分类这种思想ABC 按照商品销量划分三个类别 划分的依据 二八法则 , 这种思路很常用XYZ 和 ABC交叉 从不同维度对商品/用户 进行细分考虑的维度更多, 分群粒度可以更小, 运营可以更加精细XYZ 标签 使用变异系数进行划分

2021-08-21 21:31:20 669

原创 机器学习--指标计算

数据分析的几个层次描述型数据分析 收集各种数据, 计算各种业务指标 对当前的业务状态进行描述诊断型 业务是处于什么状态预测 机器学习算法规范/方案 数据驱动运营 数据赋能业务找到问题, 发现机会数据指标数据指标作用: 用数据来记录企业的业务状况,用数据记录每天实际发生的事实。在这个阶段,我们需要建立一套数据指标来描述我们的业务,并使用这一套指标建立相关的报表(日报,周报,月报),有了这一套指标,我们就可以监控每天业务运行的情况,方便及时发现问题

2021-08-20 16:59:34 325

原创 pandas基础知识

Anaconda的包管理功能-可以通过命令安装conda install 包名字pip install 包名字注意,使用pip时最好指定安装源:阿里云:https://mirrors.aliyun.com/pypi/simple/豆瓣:https://pypi.douban.com/simple/清华大学:https://pypi.tuna.tsinghua.edu.cn/simple/中国科学技术大学 http://pypi.mirrors.ustc.edu.cn/simple/pi.

2021-08-16 19:47:47 224

原创 SQL-主键/非空/默认/唯一,约束--各种小知识

多表操作1,外键约束保证数据的完整性和有效性通常使用在多表关系中的一对多关系中主表中的数据,被从表引用,所以从表中添加外键值,并关联主表,主表不需要做任何操作主表中被引用的数据不能被删除CREATE TABLE category( # 主表cid INT PRIMARY KEY AUTO_INCREMENT,name VARCHAR(100));DESC category;创建products表CREATE TABLE products( # 从表pid INT P

2021-06-22 15:16:23 1378

原创 SQL的---DDL语句---DML语句

*sql命令语句## 标题Mysql的登录方法一:Mysql -h链接## ip -u用户名 -p密码方法二:mysql --host= 链接ip --user=用户名 --password=密码如果显示使用我们的密码则会进行警告退出登录的方法: exit quit ctrl+csql语法是关系型数据库都需要遵守的一个规范,多个关系型数据库之间,有很多语法相互重合.sql规范相当于普通话,其他关系型数据库类似于方言,大部分内容相同,但都有自己的特色内容和语法sql语法的划分DDL:数据

2021-06-20 09:02:56 126

原创 2021-06-17

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar

2021-06-17 19:35:18 115

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除