![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据实战
文章平均质量分 88
莫彩
首先是一个人,然后是一个程序员
展开
-
python 性能优化
关于程序优化的第一个准则是“不要优化”,第二个准则是“不要优化那些无关紧要的部分”。原创 2023-01-03 00:40:18 · 968 阅读 · 1 评论 -
《这就是搜索引擎》——链接分析
常见的有两大类算法:链接分析和子集传播(作者自己提出的分类);前者最典型的是pr,后者典型的是hilltop和hits主流算法之间的演进关系。原创 2022-10-01 21:54:15 · 514 阅读 · 0 评论 -
基数估计:FM算法
LogLog算法参考《大数据——互联网大规模数据挖掘与分布式处理一书》中所提到的FM算法,下面给出简单的python实现。代码中比较重要的就是testFM函数。重要的参数是each_group_k,表示了LogLog中用后多少位表示桶号,然后对所有元素求平均进行估计。group_num是参考《大数据》书上提到的中位数方法的小改进,就是不只是使用平均进行估计,而是使用不同的哈希函数LogLog算法重复多遍,然后每个LogLog算法内求平均,多个LogLog算法内求中位数。结果改进的并不多,索性直接用一组原创 2021-04-26 01:01:23 · 449 阅读 · 0 评论 -
浅析Bloom Filter与java实现
概述布隆过滤器实际上对外表现为一个set类型,可以实现添加元素/判断元素是否存在/并集等操作。需要注意的是布隆过滤器不提供元素的删除功能,这一点特点使得他不能作为常规的集合类型使用,那么它的使用场景是保存大量固定元素的集合,并判断一个新到来的元素是否已经存在在这个集合中,s所谓“过滤器”也是因此得名。他以一定误报率(不在的元素判断为在)为代价,减少了大量存储空间。原理BF主要需要包含一个长度为m位的位图,和k个相互独立的哈希函数,哈希函数的值域在0到m-1之间。如果希望加入一个元素,那么将该元素输原创 2021-04-26 00:55:29 · 153 阅读 · 0 评论 -
HADOOP初探(一)
HADOOP与HBASE初探前言基础概念安装过程UbuntujavaHADOOP与HBASE初探前言一直在上学,所以我接触到的偏工程的项目不是特别多,大部分都是基础而范范的理论。而在这学期的一门大数据系统和大规模数据分析的课程,让我有机会接触到了一部分目前广泛应用于业界的开源项目,这篇文章就是关于第一次课程作业的,也是我的第一篇博文。希望能真真正正的积累一些东原创 2017-03-22 22:35:37 · 457 阅读 · 0 评论 -
HBase初探(一)
写在前面知识点开始动手坑们写在前面上一篇文章已经布置好了Hadoop环境,接下来的任务是在Hadoop的基础上搭建Hbase环境,然后简单的调用HDFS和Hbase的API,完成从hdfs中读取数据,简单的处理之后存储至Hbase的任务。知识点开始动手坑们原创 2017-03-23 22:30:31 · 528 阅读 · 0 评论