大数据处理
文章平均质量分 52
timegoesby_001
技术改变生活
展开
-
搜索中客户的访问日志到底能用来做什么(6)?
想到哪写到哪吧,如果看的有点乱请包涵访问日志的扩展功能说的再多我们仍是围绕用户的访问日志,先举个百度指数的例子,下图为百度指数查询李天一我们可以看到用户关注度这个趋势图,那么这个是怎么得到的呢?其实用户的搜索均会有日志,只需要而将这些查询词与访问点击保存即可,(可以用很多种方式保存,不过我估计是采用hbase来存的);同时针对(热点)查询原创 2013-11-30 10:01:33 · 974 阅读 · 0 评论 -
搜索中客户的访问日志到底能用来做什么(7)?
"价值往往不在事物的本身,而在于其延伸广度"访问日志即数据的价值不在数据本身而是利用数据产生商业价值我想从另一个方面谈谈这个访问日志的商业化使用我们都使用智能手机上网下载游戏等软件,下载热度一般是某软件的下载数,一般越热点数越高那么这个所谓的点击数真的是用户下载点击数吗?他可靠吗?答案一定是否定的,如果让我给这个大概的估计数量, 我想数值应该是: 各个站点同一软件点原创 2013-11-30 12:29:01 · 1028 阅读 · 0 评论 -
服务端研发应具备的技能(2)
1,日志处理通常我们处理文件,大多数都是处理完即程序退出,但在IT行业里,尤其是互联网公司,日志不是一时性的,而是源源不断的一直生成中,所以要求你的程序也需要像linux 下的tail -f命令一样,可以一直跟着文件读并处理日志,当日志文件按时天(或小时或分钟)切换时,也需要日志处理程序也可以无缝的处理那么如何实现模拟linux下的tail -f方式处理目录下日志文件呢?原创 2013-11-29 17:10:18 · 872 阅读 · 0 评论 -
服务端研发应具备的技能(4)
2,数据传输2.1 gearman2.2 RPC先插一下百度百科内容:RPC(Remote Procedure Call Protocol)——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用原创 2013-12-02 11:45:56 · 884 阅读 · 0 评论 -
map-reduce程序提升处理效率的方式
这里假设你已经会写简单的map-reduce 程序(本博对应搜索技术分类中我介意的介绍过map-reduce使用方法)那么同样一个map-reduce程序,输入的数据量大小一样,有什么办法可以加快map部分的计算效率呢?我先说一下碰到的实际问题: 同样一批日志一天一个目录如2013-12-01,目录下为各小时文件如****00.log......****01.log ...原创 2013-12-01 16:14:30 · 899 阅读 · 0 评论 -
hadoop之hive在数据检索中的用法 (2)
上面提到的创建表的hive_table中涉及几个问题需要先说明一下hive表。1. 普通表 普通表的创建,一个表,就对应一个表名对应的文件。2. 外部表 EXTERNAL 关键字可以让用户创建一个外部表,在建表的同时指定一个指向实际数据的路径(LOCATION),Hive 创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路原创 2013-12-01 16:03:41 · 916 阅读 · 0 评论 -
服务端研发应具备的技能(3)
2,数据传输我这里指的数据传输意思是当我们写好处理程序时往往由于需要多机来同时处理以达到处理性能要求(单机情况下不能达到处理性能要求)而这时需要各处理机程序可以无序化的对等条件下处理数据,这样可以方便新机器上程序部署扩充这里我常用的就是两种方式1,gearman方式; 2,RPC方式用起来很方便也很灵活2.1 gearman队列如下为图示简单描述:我原创 2013-12-02 11:25:58 · 1033 阅读 · 0 评论 -
服务端研发应具备的技能(1)
标题写的有点大,但没关系,如果你是高手,那么可以略过,供参考以此共勉另外说明一点,这些均是在日常工作中常用到的或常使用的方法一,1,日志处理处理方式可以参见”多线程的程序是否真的需要锁?" 这个内容最常用的日志处理就是模拟 shell 中的tail -f方式进行读文件日志然后进行对应逻辑的处理,比如统计日志,解析日志然后将解析结果转存到其它地方等待下游处理,2,原创 2013-11-10 12:15:32 · 1183 阅读 · 0 评论 -
linux 命令行如何模拟map-reduce的实现过程
提起map-reduce ,典型的示例就是词频统计,例如统计词典中单词出现的次数等为什么总用这个示例来说明呢,其实map-reduce就是一个shell 命令的串联过程,只不过用集群的多机来处理,例如有 test.data , map , reduce测试数据和程序文件则map-reduce可以本地概括为: cat test.data | ./map | sort -k1 | ./原创 2013-11-13 12:43:25 · 1396 阅读 · 0 评论 -
多线程的程序是否真的需要锁?
常需要c/c++程序多线程处理需求,提到多线程就离不开锁的概念,那是不是只要是多线程就需要锁呢? 针对这个多线程使用环境,描述一下涉及到的需求(为方便仅以单机为例说事儿)需求:一个目录下定期会生成日志,例如 /logs/info.2013110101.log ...... 需要对这些日志进行某种处理(处理逻辑可能较复杂)方案一:方式: 采用单进程程序,程序读原创 2013-11-08 15:28:46 · 1060 阅读 · 0 评论 -
搜索中客户的访问日志到底能用来做什么(3)?
为什么搜索的第一页比后面的好?首先,我们主观上的能动性是很底的,意思是我们一般手不想往下页找,希望结果中最好前几条就是期望找的结果其次,每个用户都是这种心理,不像开始的搜索引擎,看谁找的结果数量多,时间短谁就是老大,时代变了,这就要求用户的体验才是第一位再次,即然第一页重要,那么我们的第一感觉就是这个第一页和后面的页面虽然都是格式上一样,但存储访问结构与重要性肯定与后面页是不一原创 2013-11-29 14:52:31 · 812 阅读 · 0 评论 -
搜索中客户的访问日志到底能用来做什么(1)?
为什么搜索越做越大越多,定向推荐等越来越准?为什么你在北京搜索商铺饮食等,结果中都是和北京相关的内容?为什么搜索的第一页永远比后面的好?为什么搜索新鲜内容时结果会这么快的更新为你想看的内容?。。。。。为什么?。。。。。。。其实这些答案都有一个来源: 用户访问日志的分析我们先来看来访问日志一般包含哪些内容:客户端的ip, 查询的关键词与对应的url地址,原创 2013-11-29 10:57:00 · 762 阅读 · 0 评论 -
搜索中客户的访问日志到底能用来做什么(2)?
(2)得到ip地址后的处理过程如下是搜索后台已经处理后的数据,而对应的ip则是用户访问日志中的ip当搜索后台得到用户的ip后,就会到后台查询对应的位置,例如,用户ip为116.205.128.0/13 则应当得到Hunan Tietongdaodianxin信息后台日志test.log116.205.128.0/17 Hunan Tiet原创 2013-11-29 11:41:30 · 844 阅读 · 0 评论 -
搜索中客户的访问日志到底能用来做什么(4)?
质量评测算法(方法)各种评测算法或方法都离不开用户的目标点击, 比如用户查询一个word,点击的都集中到了第一页的最后一项,那至少说明你这个第一页排序有问题,没有把用户想要的结果最直接的提供给用户(大部分搜索完都只看前几条,觉得不靠谱就会转个查询词再搜或干脆换个搜索引擎)多说一句:质量评测算法不是主要的,问题是要根据总结的特征修改各引擎数据合并成第一页的展现策略,当然这些个算法或方原创 2013-11-29 15:57:03 · 931 阅读 · 0 评论 -
hadoop之hive在数据检索中的用法
hive:我只用他来检索过日志,对这个谈不上什么精通或熟练,只是会使用而已,可以按需求进行特定的数据检索而已,这个东西很方便,比map-reduce方便很多你可以把他完全当成mysql来用,因为这个也是用的SQL 语句,存储只不过数据不是存在我们常用的mysql等数据库中为什么有map-reduce还要有这个hive呢?我个人的理解是,map-reduce不管你查询什么或计算什么都需要原创 2013-11-30 23:29:15 · 2007 阅读 · 0 评论 -
搜索中客户的访问日志到底能用来做什么(5)?
相关搜索与广告推荐1,相关搜索相关搜索一般指的是搜索词相关的查询,例如在百度中搜索”计算机“一词,最下方会显示计算机,计算器,计算,房贷计算器,....... 这个其实是页面的补充,因为毕竟程序不能百分百知道你要找的是什原创 2013-11-30 09:41:30 · 860 阅读 · 0 评论 -
搜索中客户的访问日志到底能用来做什么(8)?
再谈访问日志对government的用途每个大的互联网公司都是被关系户 , 一些敏感词都都是要过滤的, 除了每家网站自身进行过滤外, government会同时给出一份过滤词, 这只是从安全的角度来说, 但是除了这个安全外,我想谈的自已的另外一点看法,当然也是基于访问日志数据价值是巨大的,小到小打小闹的商业化,大到国家国富民强的战略层面首先,可以利用数原创 2013-11-30 12:57:12 · 906 阅读 · 0 评论 -
map-reduce与hash关系
之前写了个内容,提醒对map的输入文件要切分尽量多点,以便提交map参与数量从而提升总体处理效率为什么多切分就会多map呢,其实还是因为提供给map的输入文件会进行hash,map启动的数量就是这个hash的数量所以增加切分粒度可以提升效率原创 2013-12-02 19:52:09 · 1016 阅读 · 0 评论