Hadoop系统入门之hadoop项目知识总结

电商项目实战
用户行为日志 需求实现
电商常用术语 提交到服务器运行
项目需求 扩展
数据处理流程及技术架构

用户行为日志:
每一次访问的行为(访问,收索)产生的日志
历史行为数据<==历史订单

电商专业术语:
1. Ad Views(广告浏览): 网上广告被用户浏览的次数。
2. PV(访问量): 即Page View。页面浏览量,用户每次刷新即被计算一次。网站各网页被浏览的总次数。一个访客有可能创造十几个甚至更多的浏览量。或者这样理解:用户在你的网站上打开网页的次数,浏览了多少个页面。或者刷新了的次数。
3. Impression(印象数):指受用户要求的网页每一次的显示,就是一个Impression:广告主希望10万人次看到广告,即10万人次看到广告,即10万次Impression;也是评估广告效果的元素之一。
4. UV(独立访客数):即Unique Visitor,访问网站或看到广告的一台电脑客户端为一个访客。24小时内相同的客户端被计算一次。
5. IP(独立IP),即Internet Protocol,指独立IP数,24小时相同IP地址之被计算一次。
6. URL(统一资源定位器):URL给出任何服务器,文件,图象在网上的位置,用户可以通过超文本
7. Key Word(关键字)
8. HTML:文本格式的页面描述语言,是网页通过的编程语言。
9. Band Width(带宽):在某一时刻能够传播线路传输的信息(文字,图片,音,视频)容量,带宽越高,网页的调用就越快,有限的带宽导致了尽可能地要使用网页中的图片文件大小。
10. Browser Cache(浏览器缓存):为了加速网页得浏览,浏览器在硬盘中储存了最近访问得页面,如果重新访问该站点,浏览器就从硬盘中显示这个页面,而不是从服务器中。
11. Cookie:电脑中记录用户在网络中得行为得文件,网站可通过Cookie来识别用户是否曾经访问过该网站。
12. DataBase(数据库):通常指得利用现代计算机技术,将各类信息有序分类整理,便于查找和管理,在网络营销中,指利用互联网收集用户个人信息,并存。
13. Targeting(定向):通过内容匹配,用户构成或者过滤传递最适宜得广告给用户。也是百度所说得寻找精准客户,是广告定向,客户定向。
14. Traffic(流量):用户访问站点得数字和种类。

项目需求:
统计页面得浏览器。
统计各个省份得浏览量。
统计页面得访问量。

在这里插入图片描述
统计页面得浏览量:
select count(1) from xxx。
一行记录做成一个固定得KEY,value赋值为1。

统计各个省份得浏览量:
select province count(1) from xxx group by province;
地市信息我们是可以通过ip解析得到得<==ip如何转换成城市信息
ip解析:收费。

统计页面得访问量: 把符合规则得pageId获取到,然后进行统计即可。
>存在的问题:每个MR作业都去全量读取待处理的原始日志,如果数据量大,是不是全疯了?
ETL:全量数据不方便直接进行计算的,最好是进行一步处理后再进行相应的维度统计分析:
解析出你需要的字段: ip
>城市信息。
去除一些不需要的字段; 不需要的字段就太多了。。。。
ip/time/url/page_id/country/province/city

大数据处理完以后的数据我们现在是存放在HDFS之上,
其实大数据干的事情基本就这么多
再进一步: 使用技术或者框架把处理完的结果导出到数据库中。
Sqop:把HDFS上的统计结果导出到MySQL中。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值