日志数据说明
日志里的某一条数据(以下为一整行数据,以| 为分割符):77个属性--20
533||11|93287887015245963|6||||1|100.82.254.88|100.82.98.100|2152|2152|13849|147855076||||103|1409649427963|1409649428488|1|15|999||0|10.83.124.18||60914|0|137.175.9.211||80|734|329|4|2|0|0|0|0|221|29|0|0|20|221|12600|1260|1|0|1|3|6|200|221|221|255|559955.com|/tu/31322.JPG|559955.com|Mozilla/5.0 (Linux; Android 4.3; zh-cn; SAMSUNG-SM-G7108V_TD Release/02.15.2014 Browser/AppleWebKit537.36 Build/JSS15J) AppleWebkit/537.36 (KHTML, like Gecko) Version/1.5 Mobile Safari/537.36||http://www.701111.com/||0|0|0|0|||3|0|525|0|0|1:734/329
下标位置 | 字段标识 | 数据类型 | 字段释义 |
16 | Cell ID | byte | UE所在小区的ECI,小区编号 |
22 | App Type | byte | 应用大类(每一个大类有编号,下图所示) |
23 | App Sub-type | byte | 应用小类 根据集团定义的识别规则识别出来的小类, 参见《中国移动数据流量DPI识别能力规范》。 集团未定义的各厂家根据自己的DPI进行识别 |
26 | USER_IP | byte | 终端用户的IPv4地址 |
28 | User Port | byte | 用户的四层端口号 |
30 | App Server IP | byte | 访问服务器的IPv4地址 |
32 | App Server Port | byte | 访问的服务器的端口 |
58 | HOST | char | 访问域名 |
19 | ProcdureStartTime | long | 请求起始时间 |
20 | ProcdureEndTime | long | 请求结束时间 |
18 | App Type Code | byte | 请求响应码,业务中只关注是否等于103。 如果App Type=103,表示成功发起了一次Http请求。 |
33 | UL Data | byte | 上行流量 |
34 | DL Data | byte | 下行流量---下载流量 |
39 | RetranUL | byte | 上行TCP重传报文数—上行重传数 |
40 | RetranDL | byte | 下行TCP重传报文数—重新下载次数 |
54 | HTTP/WAP事务状态 | byte | HTTP/WAP2.0层的响应码 |
业务说明
应用大类App Type Code
序号 | 业务类型 | 业务说明 |
1 | 即时通信 | 互联网消息即时收发业务,如:QQ、飞信等 |
2 | 阅读 | 向用户提供在线或离线阅读服务的业务,如:移动手机阅读、熊猫阅读等 |
3 | 微博 | 微博业务,如:移动微博、新浪微博等 |
4 | 导航 | 提供浏览、查询、导航等功能的电子地图类业务,如:谷歌地图、高德导航等 |
5 | 视频 | 向用户提供音视频内容的直播、分享和下载服务的网站和应用(不包括传统意义上基于P2P技术的视频业务),如:优酷、手机电视等 |
6 | 音乐 | 提供音乐在线欣赏和下载服务的网站和应用,如:咪咕音乐、QQ音乐等 |
7 | 应用商店 | 提供应用程序、音乐、图书等内容浏览、下载及购买服务的业务,如:Mobile Market、AppStore等 |
8 | 游戏 | 基于客户端或者网页的游戏业务:QQ游戏、开心农场等 |
9 | 支付 | 电子商务类业务,如:手机支付、支付宝、网银等 |
10 | 动漫 | 提供动漫在线欣赏和下载服务的网站和应用,如:手机动漫、爱看动漫等 |
11 | 邮箱 | 电子邮箱业务,如:139邮箱、QQ邮箱等 |
12 | P2P业务 | 基于P2P技术的资源共享业务,包括下载和视频两部分,前者如:迅雷、eMule等,后者如:迅雷看看、PPLive等 |
13 | VoIP业务 | 互联网语音通信业务,如:Skype、Uucall等 |
14 | 彩信 | 彩信业务 |
15 | 浏览下载 | 基于HTTP、WAP、FTP等的普通浏览和下载业务 |
16 | 财经 | 金融资讯、股票证劵类业务,如:手机商界、大智慧等 |
17 | 安全杀毒 | 提供网络安全服务的应用,如:360安全卫士、麦咖啡等;以及网络恶意流量,如:病毒、攻击等 |
18 | 其他业务 |
|
应用小类 App sub-type
DPI设备子业务识别能力要求(部分)
业务类型 | 子业务 |
|
| 序号 | 子业务名称 |
即时通信 | 1 | 飞聊 |
| 2 | 飞信 |
| 3 | Gtalk |
| 4 | MSN |
| 5 | |
| 6 | TM |
| 7 | 阿里旺旺 |
| 8 | 米聊 |
| 9 | 微信 |
| 10 | 人人桌面 |
| 11 | AOL AIM |
| 12 | Gadu_Gadu |
| 13 | go聊 |
| 14 | ICQ |
| 15 | IMVU |
| 16 | Lava-Lava |
| 17 | NetChat |
| 18 | Paltalk |
| 19 | PowWow |
| 20 | TeamSpeak |
| 21 | Trillian |
| 22 | VZOchat |
| 23 | Xfire |
| 24 | 百度Hi |
| 25 | 都秀 |
| 26 | 陌陌 |
| 27 | 天翼Live |
| 28 | 翼聊 |
| 29 | 网易泡泡 |
| 30 | 新浪UC |
| 31 | 新浪UT |
| 32 | 雅虎通 |
业务字段说明
业务字段 | 字段类型 | 字段说明 |
reportTime | String | 日志生成的时间 |
cellid | String | 小区id |
appType | int | 应用大类 |
appSubtype | int | 应用子类 |
userIP | String | 用户id |
userPort | int | 用户端口 |
appServerIP | String | 服务ip |
appServerPort | int | 服务端口 |
host | String | 域名 |
attempts | int | 尝试次数 |
accepts | int | 接收次数 |
trafficUL | long | 上行流量 |
trafficDL | long | 下行流量 |
retranUL | long | 重传上行流量 |
retranDL | long | 重传下行流量 |
transDelay | long | 传输延迟 |
Hadoop之电信日志数据处理(二)------mapreducer端处理