![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 83
anningzhu
这个作者很懒,什么都没留下…
展开
-
大数据中的用户画像
用户画像的含义用户画像(persona)的概念最早由交互设计之父Alan Cooper提出:“Personas are a concrete representation of target users.” 是指真实用户的虚拟代表,是建立在一系列属性数据之上的目标用户模型。随着互联网的发展,现在我们说的用户画像又包含了新的内涵——通常用户画像是根据用户人口学特征、网络浏览内容、网络社交活动转载 2017-03-01 17:43:54 · 4377 阅读 · 0 评论 -
基于大数据技术的手机用户画像与征信研究
内容提要:手机用户画像是电信运营商实现“数据驱动业务与运营”的重要举措。首先,介绍了手机用户画像过程中对个人隐私保护的方法,然后分析手机用户画像的数据来源与大数据实现技术,最后,通过数据样本实例分析手机用户画像在个人征信中的应用。引言随着计算机网络技术的不断发展,“数据即资源”的大数据时代已经来临。用户画像是电信运营商为了避免管道化风险,实现“数据驱动业务与运营”的重要举措。用户画转载 2017-03-01 17:46:46 · 2458 阅读 · 0 评论 -
hadoop,hbase,hive,zookeeper版本整合兼容性问题总结
当我们想整合hadoop,hbase,hive,zookeeper的时候,如果刚入门,可能认为这是比较简单的问题。但是当你自己真正想整合的时候,却会遇到很多的问题。1.hadoop与hbase哪些版本兼容?2.hadoop与hive哪些版本兼容?3.hbase与hive哪些版本兼容?4.hbase与zookeeper哪些版本兼容?所以当我们真正想做整合的时候,我们需要解决上转载 2017-03-05 16:46:35 · 7676 阅读 · 0 评论 -
常见的七种Hadoop和Spark项目案例
项目一:数据整合称之为“企业级数据中心”或“数据湖”,这个想法是你有不同的数据源,你想对它们进行数据分析。这类项目包括从所有来源获得数据源(实时或批处理)并且把它们存储在hadoop中。有时,这是成为一个“数据驱动的公司”的第一步;有时,或许你仅仅需要一份漂亮的报告。“企业级数据中心”通常由HDFS文件系统和HIVE或IMPALA中的表组成。未来,HBase和Phoenix在大数据整合方面转载 2017-03-05 18:11:44 · 483 阅读 · 0 评论 -
大数据面试题
1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。 2、告诉我二个分析或者计算机科学相关项目?你是如何对其结果进行衡量的? 3、什么是:提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则? 4、什么是:协同过滤、n-grams, map reduce、余弦距离? 5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库?转载 2017-03-31 16:10:44 · 1856 阅读 · 0 评论 -
面试-大量数据的解决办法
此篇先介绍了几个概念,后面的面试题为对大数量的各种处理及解决办法:海量日志数据,提取出某日访问百度次数最多的那个IP。搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节?有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词?给定a、b两个文件,各存放50亿个url,每转载 2017-03-31 16:24:57 · 2528 阅读 · 0 评论