大数据
文章平均质量分 72
石头dhf
三人行必有吾师!
展开
-
数据准备
数据清洗1.缺失值的处理3种情况:删掉有缺失值的数据;补充缺失值;不做处理。异常值的处理数据本身的错误,需要对数据进行修正,或者直接丢弃;数据偏差的处理数据偏差可能导致后面训练的模型过拟合或者欠拟合,所以处理数据偏差问题也是你在数据清洗阶段需要考虑的。数据标准化在处理完数据的问题之后,你就该对数据的标准进行整理了,这可以防止某个维度的数据因为数值的差异,而对结果产生较大的影响。在有些算法中,每一个维度的数据标准都需要进行统一;而在另外一些算法中,则需要统一数据的类型。比如在预测一个地区的房价原创 2020-12-15 16:24:05 · 1192 阅读 · 0 评论 -
图解HBase读取流程
1.介绍HBase的两种读取模式:Get与Scan 如何发起一次Get请求,Get有哪些关键参数 如何发起一次Scan请求,Scan有哪些关键参数2.Client如何发送请求到对应的RegionServer3.RegionServer侧如何处理一次读取请求 关于Scan的命题定义 如何处理Get请求 合理组织所有的"KeyValue数据源" 读取KeyV...转载 2020-01-15 19:31:49 · 903 阅读 · 0 评论 -
快速的统计千万级别uv
转载:https://www.cnblogs.com/liliuguang/p/11112694.html菜菜,咱们网站现在有多少PV和UV了?Y总,咱们没有统计pv和uv的系统,预估大约有一千万uv吧写一个统计uv和pv的系统吧网上有现成的,直接接入一个不行吗?别人的不太放心,毕竟自己写的,自己拥有主动权。给你两天时间,系统性能不要太差呀好吧~~~...转载 2019-11-05 09:40:46 · 632 阅读 · 0 评论 -
什么是倒排索引?
见其名知其意,有倒排索引,对应肯定,有正向索引。 正向索引(forward index),反向索引(inverted index)更熟悉的名字是倒排索引。 在搜索引擎中每个文件都对应一个文件ID,文件内容被表示为一系列关键词的集合(实际上在搜索引擎索引库中,关键词也已经转换为关键词ID)。例如“文档1”经过分词,提取了20个关键词,每个关键词都会记录它在文档中的出现次...转载 2018-08-26 22:03:37 · 306 阅读 · 0 评论