用Pig实现sougou需求分析 (差作业里的那一小段)

数据格式如下:


20111230000005 57375476989eea12893c0c3811607bcf 奇艺高清 1 1 http://www.qiyi.com/

20111230000005 66c5bb7774e31d0a22278249b26bc83a 凡人修仙传 3 1 http://www.booksky.org/BookDetail.aspx?BookID=1050804&Level=1
20111230000007 b97920521c78de70ac38e3713f524b50 118图库 1 1 http://www.bblianmeng.com/
20111230000008 6961d0c97fe93701fc9c0d861d096cd9 华南师范大学图书馆 1 1 http://lib.scnu.edu.cn/
20111230000008 f2f5a21c764aebde1e8afcc2871e086f 满江红 2 1 http://proxyie.cn/
20111230000009 96994a0480e7e1edcaef67b20d8816b7 1 1 http://movie.douban.com/review/1128960/
20111230000009 698956eb07815439fe5f46e9a4503997 youku 1 1 http://www.youku.com/
20111230000009 599cd26984f72ee68b2b6ebefccf6aed 安徽合肥365房产网 1 1 http://hf.house365.com/
20111230000010 f577230df7b6c532837cd16ab731f874 奇艺高清 1 1 http://www.kz321.com/
20111230000010 285f88780dd0659f5fc8acc7cc4949f2 www.sogou.cn 1 1 http://www.iqshuma.com/
20111230000010 57375476989eea12893c0c3811607bcf 推荐待机时间长的手机 1 1 http://mobile.zol.com.cn/148/1487938.html
20111230000010 3d1acc7235374d531de1ca885df5e711 满江红 1 1 http://baike.baidu.com/view/6500.htm
20111230000010 dbce4101683913365648eba6a85b6273 奇艺高清 1 1 http://zhidao.baidu.com/question/38626533
20111230000011 58e7d0caec23bcb4daa7bbcc4d37f008 张国立的电视剧 2 1 http://tv.sogou.com/vertical/2xc3t6wbuk24jnphzlj35zy.html?p=40230600
20111230000011 a3b83dc38b2bbc35660dffcab4ed9da8 www.baidu.com 1 1 http://www.7183.info/
20111230000011 b89952902d7821db37e8999776b32427 满江红 1 1 http://wenwen.soso.com/z/q131927207.htm
20111230000011 7c54c43f3a8a0af0951c26d94a57d6c8 百度一下 你就知道 1 1 http://www.baidu.com/
20111230000005 66c5bb7774e31d0a22278249b26bc83a 凡人修仙传 5 1 http://www.dy241.com/
20111230000011 11097724dae8b9fdcc60bd6fa4ce4df2 118图库 2 1 http://118123.net/

20111230000012 1d374b57fbbc81aa0cc38e6f4efb88ec www.qiyi.com 1 1 http://tui.qihoo.com/28302631/article_2893190.html


要求:

访问时间(fdate)
用户ID(UID)
搜索内容(topic)
该URL在搜索返回结果中的排名(page_num)
用户点击该网页的顺序号(click_num)
用户点击的URL(url)


4大类需求
筛选有效数据
1)非空查询条数(查询内容为空) 2)非空非重复条数(重复指同一时间、UID、查询内容)
统计有效数据
1)数据总条数
2)独立UID数(非重复UID个数)
UID分析
1)UID查询次数分布(按UID分组,并count())
2)UID平均查询次数 ( 总记录数/独立UID )


用户行为分析
直接输入URL作为查询词所占的比例(以下为URL格式,计算(count(www.*.com)+count(www.*cn))/总记录数)
1)www.*.com
2)www.*cn


独立用户行为分析(过滤出指定UID的所有数据)
    1)针对单个用户的查询数据分析


数据展现



--------筛选有效数据统计


so = load 'sogou_20.txt' as (fdate:chararray,uid:chararray,topic:chararray,page_num:long,click_num:int,url:chararray);
topic为空值记录数统计:


so_null = filter so by topic is  null;
null_grp = group so_null all;


count_null = foreach null_grp generate 'null_count',
COUNT (so_null) as count_num;
dump count_null;
(all,1)
topic不为空值记录数统计:


so_notnull = filter so by topic is not null;
notnull_grp = group so_notnull all;


count_notnull = foreach notnull_grp generate 'notnull_count',
COUNT (so_notnull) as count_num;
dump count_notnull;
(all,19)
非空非重复条数(重复指同一时间、UID、查询内容):


方法-、
notnull_distinct = group so_notnull by (fdate,uid,topic);
notnull_distinct_grp = group notnull_distinct all;
notnull_distinct_count = foreach notnull_distinct_grp generate group,COUNT(notnull_distinct);
dump notnull_distinct_count;
(all,18)
方法二、
f1 = foreach so_notnull generate fdate,uid,topic;
d1 =  distinct f1;
g1 = group d1 all;
d1_count = foreach g1 generate group,COUNT(d1);
dump d1_count;
(all,18)
----------统计有效数据
1、数据总条数 = 非空非重复条数


2、独立UID数(非重复UID个数)
g2 = group f1 by uid;
g3 = group g2 all;


f2 = foreach g3 generate group,COUNT(g2);
dump f2;
(all,17)


--------UID分析


1、UID查询次数分布(按UID分组,并count())
so_notnull = filter so by topic is not null;


not_null_grp = group so_notnull by uid;


uid_topic_count =  foreach not_null_grp {
f3 = foreach so_notnull generate fdate,uid,topic;
d3 =  distinct f3;
generate group,COUNT(d3);
};
dump uid_topic_count;


结果:18条记录




2、UID平均查询次数 ( 总记录数/独立UID )


== 非空非重复条数/独立UID数
g4 = group f1 by uid;
g5 = group g4 all;


f4 = foreach g5 generate 'topic_avg_count',COUNT(g4)/18.0;
dump f4;


(topic_avg_count,0.9444444444444444)
--------用户行为分析



### 回答1: Ubuntu 20已经整合了搜狗输入法。 Ubuntu 20是Ubuntu操作系统的最新版本,又被称为Ubuntu 20.04 LTS。它是一个免费的开源操作系统,适用于个人电脑、服务器和物联网设备等多种应用场景。Ubuntu 20通过集成了搜狗输入法来提供更好的中文输入体验。 搜狗输入法是一款流行的中文输入法软件,用户可以通过它在Ubuntu中输入中文字符。它具有智能联想、滑动输入、多种主题等功能,可以帮助用户更准确地输入中文。 在Ubuntu 20中,用户可以很方便地安装和使用搜狗输入法。只需打开软件中心,搜索搜狗输入法,点击安装即可。安装完成后,用户可以在系统设置中选择搜狗输入法作为默认输入法。之后,用户可以通过点击系统托盘上的输入法图标来切换输入法,使用搜狗输入法来输入中文。 有了搜狗输入法的支持,Ubuntu 20的中文输入得到了有效改善。无论是在日常办公、聊天、网上冲浪还是进行中文编程,都可以更方便、更高效地进行。搜狗输入法的强大功能,使得写作、编辑等任务更加顺利。 总之,Ubuntu 20整合了搜狗输入法,为用户提供了更好的中文输入体验。无论是基础用户还是高级用户,在使用Ubuntu 20时都可以享受到搜狗输入法带来的便利。 ### 回答2: Ubuntu 20.04是一种广受欢迎的操作系统,而Sougou输入法则是在Ubuntu上使用的一种流行的输入法。Ubuntu 20.04是一种开源的Linux操作系统,具有稳定性、安全性和用户友好性等特点。它提供了丰富的应用程序、工具和功能,可以满足用户的各种需求。Sougou输入法则是一种基于Pinyin输入的中文输入法,具有词库广泛、输入准确等特点。 在Ubuntu 20.04中安装和使用Sougou输入法非常简单。用户只需通过在Ubuntu软件商店或终端中搜索和安装Sougou输入法相关的软件包。安装完成后,用户可以在系统设置中找到输入法选项,并将Sougou输入法设置为默认输入法。然后,用户就可以通过切换输入法的方式在Ubuntu 20.04中使用Sougou输入法进行中文输入了。 使用Sougou输入法,用户可以通过拼音输入中文,并根据提示选择需要的词组或词语。Sougou输入法的词库非常丰富,可以满足用户的日常办公和交流需求。此外,Sougou输入法还提供了一些方便的功能,如造词、自定义短语等,以满足用户个性化的输入习惯。 总的来说,Ubuntu 20.04和Sougou输入法的结合为用户提供了一种高效、稳定的中文输入方式。无论是在日常生活中还是工作中,这种组合都能帮助用户更方便地进行中文输入。同时,Ubuntu的开源性质也意味着用户可以根据自己的需求进行定制和调整,以更好地适应个人习惯和工作环境。 ### 回答3: Ubuntu 20.04目前尚不容易与搜狗输入法直接兼容。Ubuntu 20.04是一个基于Linux的操作系统,而搜狗输入法是一个为Windows和macOS开发的输入法软件。虽然搜狗输入法在过去支持过Ubuntu系统,但与新的Ubuntu 20.04版本存在一些兼容性问题。 由于搜狗输入法是一个第三方的软件,开发者需要适应新的系统和版本。因此,现在仍然需要一些时间和努力来确保搜狗输入法能够完全适配Ubuntu 20.04。目前,搜狗公司尚未发布支持Ubuntu 20.04的官方版本。 然而,对于使用Ubuntu 20.04的用户而言,仍然有一些其他的方法来实现输入法的功能。例如,可以使用系统自带的默认输入法或者安装其他兼容性更好的输入法软件,如IBus。这些输入法软件可以在Ubuntu的软件库中轻松获取,并且它们已经过测试,可以与最新的Ubuntu 20.04版本兼容。 由于搜狗输入法在过去受到用户的喜爱和习惯,所以一些用户仍然希望能够在Ubuntu 20.04中使用这款输入法。对于这些用户,他们可以选择等待搜狗公司发布官方的Ubuntu 20.04版本,或者实验性地尝试使用一些非官方的解决方案来在Ubuntu 20.04中安装和使用搜狗输入法。然而,非官方解决方案可能存在兼容性问题或者稳定性方面的不足,使用时需要谨慎。 总之,虽然Ubuntu 20.04目前可能不直接兼容搜狗输入法,但用户仍有其他选择来实现输入法的功能,并且我们可以期待搜狗公司将来发布支持Ubuntu 20.04的官方版本。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值