大数据分析案例

最新推荐文章于 2024-05-13 15:35:36 发布

900的梗

最新推荐文章于 2024-05-13 15:35:36 发布

阅读量584

点赞数 1

分类专栏： Hadoop

本文链接：https://blog.csdn.net/weixin_43485715/article/details/103216938

版权

Hadoop 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

仿百度每日搜索关键字词频统计案例

hadoop

一、将网页产生的日志存放至linux

1.在linux系统上配置Apache-tomcat服务
image.png-432kB

cd opt/modules/apache-tomcat-8.5.39.tar.gz

image.png-502.9kB
2.将war包放置opt/apache-tomcat-8.5.39.tar.gz/下
3.启动服务
image.png-395.3kB
4.在网页上输入关键词搜索，生成日志文件，在logs文件夹下可以查看
image_1d79utrcu91199uer1dp416ee9.png-150kB
image_1d79v0hnfi2t1a1k14i011e61hqfm.png-156.6kB
日志格式的设置文件：
image_1d79v2hu41b9s465gie74esdf13.png-18.6kB

一般的web server有两部分日志： 
一是运行的日志，它主要记录运行的一些信息，尤其是一些异常错误日志信息 
二是访问日志信息，他是记录的访问的时间，ip，url，sessionId等信息。 
下面来介绍使用tomcat记录访问日志的使用，这个是在tomcat/conf/server.xml文件，需要配置如下的配置： 
访问记录配置
有的版本肯能默认不开启记录，只需要把这解注释就好了，记录的文件放在/tomcat/logs/filename,默认是每天产生一个文件，产生的文件如图所示 
日志文件 
日志文件里面的内容 
        <!-- Access log processes all example.
             Documentation at: /docs/config/valve.html
             Note: The pattern used is equivalent to using pattern="common" -->
        <Valve className="org.apache.catalina.valves.AccessLogValve" directory="logs" pattern="%h %l %u %t &quot;%r&quot; %s %b"  #日志的设置格式 prefix="localhost_access_log" suffix=".txt"/>

      <Context docBase="C:\Program Files\Apache Software Foundation\Tomcat 8.5\wtpwebapps\Web06" path="/Web06" reloadable="true" source="org.eclipse.jst.jee.server:Web06"/></Host>
    </Engine>
  </Service>
</Server>
日志详情

如果想自己定义书写的文件的格式可以对上面的pattern里面的内容进行修改，可以修改的参数有以下数据

具体的日志产生样式说明如下(从官方文档中摘录)： 
%a - 远端IP地址
%A - 本地IP地址
%b - 发送的字节数，不包括HTTP头，如果为0，使用"－"
%B - 发送的字节数，不包括HTTP头
%h - 远端主机名(如果resolveHost=false，远端的IP地址）
%H - 请求协议
%l - 从identd返回的远端逻辑用户名（总是返回 '-'）
%m - 请求的方法（GET，POST，等）
%p - 收到请求的本地端口号
%q - 查询字符串(如果存在，以 '?'开始)
%r - 请求的第一行，包含了请求的方法和URI
%s - 响应的状态码
%S - 用户的session ID
%t - 日志和时间，使用通常的Log格式
%u - 认证以后的远端用户（如果存在的话，否则为'-'）
%U - 请求的URI路径
%v - 本地服务器的名称
%D - 处理请求的时间，以毫秒为单位
%T - 处理请求的时间，以秒为单位
另外还可以将cookie, 客户端请求中带的HTTP头(incoming header), 会话(session)或是ServletRequest中的数据都写到Tomcat的访问日志中，你可以用下面的语法来引用。 
%{xxx}i – 记录客户端请求中带的HTTP头xxx(incoming headers) 
%{xxx}c – 记录特定的cookie xxx 
%{xxx}r – 记录ServletRequest中的xxx属性(attribute) 
%{xxx}s – 记录HttpSession中的xxx属性(attribute) 

        <Valve className="org.apache.catalina.valves.AccessLogValve" directory="logs"
             prefix="localhost_access_log." suffix=".txt"
             pattern="%h    %l  %u  %t  "%r"  %s  %b  %S" />

设置结束后，重启apache！！！
Apache的端口号是：8080
二，Hadoop运行，集群开启
1.
2.进入flume
image_1d79vmt9b1h3214k61jsq1fn81tpq1g.png-49.8kB
3、进入case编辑flume的配置文件，将Apache下面的logs文件上传至集群

vim 配置文件的名称

image_1d79vro0716fsr0rhj51up31l6l1t.png-19kB
4.运行

Hadoop集群端口号：50070
5.在Hadoop下可以查看上传到集群的数据是否成功
三、数据处理mapreduce阶段

此过程要先把flume关闭，当flume打开的过程中I/O流被霸占不能进行操作
在 eclipse下创建maven工程
写完清洗的过程之后，将Jar包导入之Linux上，

image_1d7a2a35gbdhesodv11ns0nmd9.png-118kB
因要多次调用，所以可以写一个执行jar包的脚本
image_1d7a2ekpmvsqe8m1t7s10jai7im.png-34.1kB
image_1d7a2q76chvnt9k9sqgo10om13.png-93.2kB
四、进入hive对清洗好的数据进行分析并存入数据库
此过程要先开启MySQL的服务（在root权限下）
1.进入MySQL间数据库，
2.在这个数据库下建立数据表
3.编写hive-sql数据分析的脚本
image_1d7a4ata51fuhthddjnog13gj2n.png-150.1kB
4.编写sqoop将hive中的数据结果导入到MySQL的脚本
image_1d7a43un3m4tdt9e7uhn1k692a.png-244.3kB
5.在执行文件weblog.sh里编写执行的脚本
image_1d7a3t0otv6f12d214fh1up1nb41g.png-167.2kB

900的梗

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据分析案例

仿百度每日搜索关键字词频统计案例标签（空格分隔）： hadoop一、将网页产生的日志存放至linux1.在linux系统上配置Apache-tomcat服务cd opt/modules/apache-tomcat-8.5.39.tar.gz2.将war包放置opt/apache-tomcat-8.5.39.tar.gz/下3.启动服务4.在网页上输入关键词搜索，生成日志文件...
复制链接

扫一扫