大数据
文章平均质量分 72
石头dhf
三人行必有吾师!
展开
-
数据准备
数据清洗 1.缺失值的处理 3种情况:删掉有缺失值的数据;补充缺失值;不做处理。 异常值的处理 数据本身的错误,需要对数据进行修正,或者直接丢弃; 数据偏差的处理 数据偏差可能导致后面训练的模型过拟合或者欠拟合,所以处理数据偏差问题也是你在数据清洗阶段需要考虑的。 数据标准化 在处理完数据的问题之后,你就该对数据的标准进行整理了,这可以防止某个维度的数据因为数值的差异,而对结果产生较大的影响。在有些算法中,每一个维度的数据标准都需要进行统一;而在另外一些算法中,则需要统一数据的类型。比如在预测一个地区的房价原创 2020-12-15 16:24:05 · 1166 阅读 · 0 评论 -
图解HBase读取流程
1.介绍HBase的两种读取模式:Get与Scan 如何发起一次Get请求,Get有哪些关键参数 如何发起一次Scan请求,Scan有哪些关键参数 2.Client如何发送请求到对应的RegionServer 3.RegionServer侧如何处理一次读取请求 关于Scan的命题定义 如何处理Get请求 合理组织所有的"KeyValue数据源" 读取KeyV...转载 2020-01-15 19:31:49 · 888 阅读 · 0 评论 -
快速的统计千万级别uv
转载:https://www.cnblogs.com/liliuguang/p/11112694.html 菜菜,咱们网站现在有多少PV和UV了? Y总,咱们没有统计pv和uv的系统,预估大约有一千万uv吧 写一个统计uv和pv的系统吧 网上有现成的,直接接入一个不行吗? 别人的不太放心,毕竟自己写的,自己拥有主动权。给你两天时间,系统性能不要太差呀 好吧~~~ ...转载 2019-11-05 09:40:46 · 613 阅读 · 0 评论 -
什么是倒排索引?
见其名知其意,有倒排索引,对应肯定,有正向索引。 正向索引(forward index),反向索引(inverted index)更熟悉的名字是倒排索引。 在搜索引擎中每个文件都对应一个文件ID,文件内容被表示为一系列关键词的集合(实际上在搜索引擎索引库中,关键词也已经转换为关键词ID)。例如“文档1”经过分词,提取了20个关键词,每个关键词都会记录它在文档中的出现次...转载 2018-08-26 22:03:37 · 294 阅读 · 0 评论