自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 AVL树的注意点

AVL树

2022-08-21 15:30:02 106

原创 2022-03-02 学习笔记

线性结构数组 查找快,增删慢,主要还是要看是怎么操作的python 下划线的含义

2022-03-02 22:57:11 267

原创 2022-02-26 学习笔记

XGBOOST在GBDT上面做的改进不会的地方:梯度下降 原理 和思想泰勒展开 是解决什么问题xgboost 和决策树的剪枝是两回事

2022-02-28 10:30:11 476

原创 2022-02-26 学习笔记

支持向量机拉格朗日函数硬间隔支持向量机 必须要求样本是线性可分的软间隔支持向量机 支持一些样本是线性不可分的求解参数值,先用拉格朗日参数推导公式再用核函数 代入最后用SMO去解这个函数朴素贝叶斯解决多分类问题XGBOOST在gboost 上做的极限的提升m 的值可以自己定,也可以看和上一次的差值如果没什么提升就可以停止了...

2022-02-27 10:01:32 52

原创 2022-02-25 学习笔记

计算之魂一个状态与另一个状态之间有因果关系,如果顺着因果关系链找到这个因是debug的关键所在调试和测试的时间是编码的三倍左右,重视复查和测试!确定与随机

2022-02-26 10:40:35 45

原创 2022-02-23 学习笔记

支持向量机线性可分支持向量机所有样本点距离分离超平面最近的那个点距离这条线距离最大所有的几何距离都要大于这个值下面就是去求解

2022-02-23 23:37:12 113

原创 2022-02-22 学习笔记

并行与串行计算机处理器提高方法2000年之前1 提高工作频率2 提高位数 处理器的带宽3 提高处理器的复杂程度2016年之后追求单位能耗提供的计算量原理是用算法增强了处理器的某些功能 删掉了一些通用功能,为特定的任务增加效率...

2022-02-23 22:30:20 36

原创 2022-02-21 学习笔记

计算之魂 存储衡量存储器的三个指标1 大量顺序访问数据时的速率,被称为传输的带宽2 访问一个存储单元的时间3 一次访问的准备时间如果顺序访问 考虑1就够了 如果是随机访问某个特定的单后两种情况两种建立索引的方式1 按照内容排序每个内容 存储了索引分别对照具体序号和数值需要logn 时间查询到相应的内容2 利用哈希表建立索引o1 的复杂度就可以了 但是很难找出一个区间的所有值如果将随机访问变成顺序访问 是转化问题的关键...

2022-02-21 23:00:06 38

原创 2022-2-20学习笔记

决策树1 全部标签都是一类数2 没有特征损失函数是每个节点上的经验熵节点越多 Nt越少 那么分的越细 损失函数越小所以加上正则化项 去剪纸防止过拟合现象决策树是对输入空间的划分的输出且在每一个单元上有一个固定的输出值回归树就是把每个元素的回归特征变成二分类的特征Boosting 提升模型方法多用几个模型去提高计算结果加法模型和前向分布算法把所有基函数加一起一堆模型的整体优化 一般完成不了前向分布算法,一个模型一个模型的算,一个一个来而不是一起算boosti

2022-02-20 15:12:48 429

原创 2022.02.16 学习笔记

理解存储存储是不是存储的数据越多,能进行的计算就越少不是,存储的数据过多就需要从内存分块读取数据反而比直接存储在cpu寄存器中的小数组慢存储的两个维度第一 顺序和随机决策树熵的定义n是x的取值情况特征A对训练集D的信息增益 = 数据集的不确定性- 已知A的数据集的不确定性h(d|a) 里的h(Di) 是指特征里面特征A 确定了的情况下 的熵问题:条件熵公式推导...

2022-02-17 23:19:47 369

原创 2022.02.15 学习笔记

2022.02.15 学习笔记《计算之魂》分治将一个复杂问题分割为多个子问题解决子问题合并结果

2022-02-16 08:52:24 164

原创 8.12 学习日记

8.12 学习笔记技术栈学习 :mybatis商业通识三十讲:去中心型商业的案例众筹 、区块链、p2p金融、保险迅雷bt下载什么是工资、什么是红利、什么是利润红利是短暂的供需失衡带来的超额回报工资是指 供需接近平衡之后 社会给的工资利润是提供差异化的产品远离竞争...

2021-08-12 21:20:22 71

原创 2021-08-10 学习笔记

《美国经济增长的起落》1900-1920年各种生活设施的建立,具名房屋居住水平日益提高,自来水管道,燃气管道拉低了贫富差距,却拉大了城市和农村的差距

2021-08-12 21:19:51 66

原创 2021-08-09 学习笔记

线段型商业和中心型商业线段型生产厂家 — 中间节点 — 另一个中间节点—消费者中心型商业淘宝、百度、微信信用中心银行、保险、证券交易所去中心型商业三万人有人得了癌症,每个人出十块绕过了保险公司 这个信用中心赔付率比保险公司高,保险公司管理费太高约40%去中心型商业也在中心型商业之上网络密度增加带来了中心,网络密度进一步增加又会消灭中心,也许可以在平级中更高效的完成连接。去中心型商业的案例angel list 公司将那些天使投资的请求放在平台上,消灭了项目的信息不对称,让一级市

2021-08-10 08:14:53 62

原创 8.8学习笔记

商业模式零售行业的商业模式低价,总成本领先聚焦 , 初创企业都需要聚焦做单个产品,这个更像是战略不看好小米的高端战略,很明显李国庆很不懂品牌,被定位理论洗过脑了当当为什么不卖手机1 三大品牌太强势,只有3%的点 还有0.8% 的退货2 手机快递容易被偷3 下游被国美苏宁把持京东就命好,遇上了手机革命,国产手机给16%+3% 的利润率,所以雷军自己做电商,卖手机数据开发专业技能数据质量检查:每个字段空值占比,最大值检查,最小值检查维度建模和范式建模星型模型 雪花模型 星座模型

2021-08-08 22:32:41 44

原创 8.7学习笔记

李国庆的课当当失败的原因1 没有平台化的战略思想,只做单品类2 没有用户为王的理念,没有重视用户数量,没有用亏损换用户的思维3 墨守成规不敢打破规则融资1 没有形成资本战略,而资本是这个行业的关键因素2 第一波融资没有很好的估值,自己只占30%了,之后和投资人谈判,伤了感情。李国庆以辞职相要挟,不想做第二个王志东,新投资人老虎基金要求第一轮投资人多给20%多给创始人李国庆、俞渝矛盾初现,融资是俞渝谈的,说俞渝拒绝了沈南鹏,这个我认为是李国庆的问题,决定公司的重要因素,这能甩锅?4 拒绝了

2021-08-07 23:55:11 54

原创 8.6笔记

美国经济增长的起落美国19世纪人民的生活状况,男人大部分时间在劳动,妇女主持家务,没有退休一说,平均寿命五十几岁,一直工作到死,1900年左右食品安全问题频发。生产厂家 在牛奶里掺水,在肉里加酸 成产环境恶劣。《屠场》记录了此事,并对社会产生巨大影响,肉类消费量减半,二十年还未回到1903年的消费总量。1900年左右 ,乡村小贩主宰了整个交易市场,利用信息不对称,赚了很多钱,居民对此意见颇深。随着铁路的发展,城市与城市开始连接,希尔斯使用商品邮购的方式将生意做到了整个国家。后来随着公路和汽车

2021-08-07 09:10:59 75

原创 8.6笔记

美国经济增长的起落美国19世纪人民的生活状况,男人大部分时间在劳动,妇女主持家务,没有退休一说,平均寿命五十几岁,一直工作到死,1900年左右食品安全问题频发。生产厂家 在牛奶里掺水,在肉里加酸 成产环境恶劣。《屠场》记录了此事,并对社会产生巨大影响,肉类消费量减半,二十年还未回到1903年的消费总量。1900年左右 ,乡村小贩主宰了整个交易市场,利用信息不对称,赚了很多钱,居民对此意见颇深。随着铁路的发展,城市与城市开始连接,希尔斯使用商品邮购的方式将生意做到了整个国家。后来随着公路和汽车

2021-08-07 09:08:39 74

原创 8.5学习日记

刘润的商业通识三十讲:物物交换的社会存在两个问题 第一,生产者的物品有时效性,第二要找到愿意交换的人 比如 张三种田得到了1000斤米,他也吃不了这么多,他要在米坏之前拿他的米去换老李家的猪肉,老钱家的布。于是出现了货币和商人,货币切分了买卖,商人连接了交易。有了货币和交易,又出现了两个问题 :信息不对称和信用不传递信息不对称:你不知道你的米可以换多少牛肉信用不传递:你刚到一个城市,不知道哪个理发师理发手艺高超,哪家餐厅的菜好吃阿里一定程度上解决了信息不对称,美团点评解决了信用不传递

2021-08-05 22:56:32 131

原创 substract repartition sortedBy collect sum reduce Aggregreate take takeOrder min/max foreach算子底层实现

substract用cogroup实现 效率低substract 求差集shuffle之后 在每个分区将重复的部分相减 这样比cogroup效率高如果之前都被同样的分区器分区过了 就不用再shuffle了substract调用substractbykey 再调用一个substractRDDrepartition coalesce可以改变分区的数量 ,底层调用coalescecoalesce 减少分区数量可以不shuffle,但是增加分区数量一定要shuffle但是分区器变

2021-04-12 10:07:42 172

原创 groupBy groupByKey distinct

groupByKey不在map端聚合 直接到reduce端聚合可以 传分区器和分区数量val list: Seq[(String, Int)] = List((“spark”, 6), (“spark”, 3), (“flink”, 7), (“hadoop”, 2), (“hadoop”, 8), (“spark”, 2), (“flume”, 9))List((flink,CompactBuffer(7)), (spark,CompactBuffer(6, 3, 2)), (hadoop,Com

2021-04-08 19:31:23 100

原创 shuffleRDD底层实现

reducedByKeyPairRDDFunctions 隐式增强类 中的方法这个方法调用了一个默认的分区器并传入聚合函数def reduceByKey(func: (V, V) => V): RDD[(K, V)] = self.withScope {reduceByKey(defaultPartitioner(self), func)}之后调用PairRDDFunctions里的方法 combineByKeyWithClassTagdef reduceByKey(partiti

2021-04-08 18:09:15 198

原创 随笔记

段正淳是一个很有趣的人物,风流却又痴情,他跟其中每一个女孩在一起都是全心全意的真实的爱,他对她们很真诚,她们也都很开心。而大部分人都是对方的百分之百,而相处的百分之九十都是在无聊中度过。从结果上看,服务好一个人是很困难的。这个世界最无趣的地方就是孙柔嘉太多,方鸿渐太少,不过话又说回来,艺术本就是现实的映射。...

2021-04-08 17:31:53 35

原创 Spark RDD 方法实现等底层原理

Spark读取数据分几个区所有block块最多是128M大小exam: 两个文件一个 100bit 一个124bit会计算所有block块字节数总和 除以最小分区数(默认为2) 得到goalsize 224/2=112如果有文件块大于 goalsize的1.1倍 124/112=1.107 > 1.1则将这个大文件分为两个区0~112112~124如果想要按文件数量分区 则设置最小分区数为1 则没有文件数可以超过goalsize 就不用拆分了

2021-04-06 23:32:16 140

原创 JAVA常用数据结构分类和继承体系

逻辑结构和存储结构都是数据结构的属性具体的数据结构java常用的数据结构继承体系Iterable接口Iterable可以遍历元素,不浪费内存空间。collection接口所有单列集合的父接口ollection是所有单列集合的父接口,因此在Collection中定义了单列集合(List和Set)通用的一些方法,这些方法可用于操作所有的单列集合。方法如下:public boolean add(E e): 把给定的对象添加到当前集合中 。public void clear() :清空集.

2021-03-26 17:34:30 311

转载 Hbase原理深入及操作

https://blog.csdn.net/qq_37933018?spm=1001.2014.3001.5509

2021-03-23 20:40:32 43

原创 Hbase历史、特点、使用场景和原理

Hbase是什么hbase的历史Hbase开始于谷歌发表的一片论文《大表:一个半结构化数据的分布式存储系统》,最初的开发人员是MichaelStack和JimKellerman,他们看了谷歌的论文写了hbase程序,2007年4月,HBase做为一个模块提交到Hadoop的代码库中,代码量~8000行,2010年5月HBase成为Apache的顶级项目。hbase加入hadoop生态为hbase社区发展带来了巨大的便利,但是依赖于hdfs和MapReduce使得hbase不太适合处理小数据。hbas

2021-03-23 12:41:50 445

原创 HIVE

HIVE静态分区二级分区1 准备数据a.log1,a,河北,保定2,b,河北,保定3,c,河北,保定b.log4,d,河北,石家庄5,e,河北,石家庄6,f,河北,石家庄c.log7,j,河北,邯郸8,q,河北,邯郸9,k,河北,邯郸d.log10,A,河南,郑州11,B,河南,郑州12,C,河南,郑州e.log10,A,河南,洛阳11,B,河南,洛阳12,C,山西,太原2 创建分区表create table logs (id int,name stri

2021-03-13 20:59:52 61

原创 MR在yarn上的运行流程

1 向ResourceManager提交任务2 主节点返回jobID 和目录3 初始化 (1)创建临时目录 (2) 上传jar包 (3) 初始化配置信息 (4) 计算任务切片4 开始运行job5 ResourceManager 调用Scheduler组件创建默认容器 创建MRappm组件AppMaster负责控制所有的任务Scheduler 负责调度资源nodemanager会根据自己资源生成容器(内存.

2021-03-05 20:19:10 227

原创 MR原理简单总结

MR 原理简单总结1读取job 读取输入路径、遍历文件,根据文件数量和大小切片2获得数据TextInputFormat 获得每个切片的数据 调用LineRecoderReader方法,读取一行内容,key为行起始信息,value为行内容,nextKeyValue判断后面还有没有数据了。3Maptask核心逻辑4HashPartitioner分区器计算key哈希值模以reduce的个数5 MapOutBuffer 从内存溢出到磁盘中有一个环形数组作为缓冲区,将接受到的数据,排序放入缓

2021-02-28 22:19:48 576

原创 Hadoop上传读取元数据管理原理 MapReduce运行模式

Hadoop 原理增强1hdfs上传原理本地请求上传a.txt 文件(1)namenode服务器接受请求、校验(2)返回ok请求上传第一块数据namenode接受并返回三个节点地址本地建立连接通道和第一个节点相连接,第一个节点连接第二个节点,第二个节点连接第三个节点原路返回一个ok上传文件2读取文件原理1.请求下载a.txt文件2.接受返回元文件数据信息3.请求节点下载第一块数据3.元数据管理namenode主要负责管理元文件信息元文件: 文件块储存位置 储存大小

2021-02-25 23:47:33 154

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除