新质生产力人工智能+系列5-智能业务识别研究(含任务、数据、算力资源)

 在新质生产力高质量发展的要求下,中国移动在“人工智能+”和 “数据要素X”方面不断发力,持续发布高质量电信数据集。围绕网元智能、运维智能、服务智能三大方向建设,涵盖无线信道、基站、云网、核心网、哑资源等多领域,支持感知、诊断、预测、决策、大模型等多类网络AI能力研发的标志性数据集。相关数据集均由智慧网络开放创新平台承载。

中国移动 - 智慧网络新一代人工智能开放创新平台https://jiutian.10086.cn/open/

智能业务识别_HTTP

https://jiutian.10086.cn/open/#/dataset/710023icon-default.png?t=N7T8https://jiutian.10086.cn/open/#/dataset/710023

拨测 40+ 种指定业务,捕获并保存 HTTP 流量为 Pcap 文件,使用 Wireshark 解析出原始码流并构建数据集。

背景介绍

随着互联网技术的发展及企业数字化转型的加速推进,网络应用和服务正变得越来越多样化,这对网络安全防护提出了更高的要求。为了确保企业的核心资产和用户数据安全,业务识别已成为现代网络安全体系中的重要组成部分。传统的网络监控手段往往依赖于固定的规则和模式匹配,难以有效应对不断变化的威胁形势以及日益复杂的业务场景,对于未加密的 HTTP 流量而言,这些挑战尤为显著。
HTTP(超文本传输协议)是互联网上应用最为广泛的一种网络协议,用于从 WWW 服务器传输超文本到本地浏览器。HTTP 通信是明文传输,这让研究者能够更有效地识别各种业务类型和服务,从而更好地助力网络资源管理和用户隐私保护。

数据来源

本数据已获得 DOI 认证,科学数据 DOI 编号:10.12448/3si6-z716

使用测试终端对指定业务列表中的几十种业务进行拨测。测试过程中,逐一运行每项指定业务,在此期间关闭所有其他业务的网络使用权限,以确保捕获到的数据包仅包含被测业务的信息。在完成每项业务的测试后,保存所产生的 Pcap 包,并利用 Wireshark 工具从中解析出原始码流信息。

数据文件说明

点击“开始训练”进入毕昇平台创建实例,数据在 jupyter 中的存储路径为:/root/开放创新平台数据任务:智能业务识别-HTTP。数据集文件名称为 智能业务识别_HTTP数据集.csv。

关联子集:作为系列数据集的一部分,智能业务识别_HTTP 与另外一个数据集互为补充。请继续关注:
  子集二:智能业务识别_HTTPS

样例数据说明

1. 业务数据

数据提供 8 个字段,含义和格式如下表:

字段名格式含义
protocolstr协议
hex_src_ipstr16 进制源 IP
hex_dst_ipstr16 进制目的 IP
src_portint源端口号
dst_portint目的端口号
hoststr域名系统中的主机
payloadstr数据包中携带的有效数据
labelstr业务类别标注

具体样例如下:
protocolhex_src_iphex_dst_ipsrc_portdst_porthostpayloadlabel
ipv40a010a01b7e8198741920443ali-stats.jpush.cn1603010200010001fc0303f64……com.shuqi.controller
ipv40a010a016f13856946128443d.ifengimg.com1603010200010001fc0303db8……com.ifeng.news2
ipv40a010a01dacb75f940004443bossaudioandcomic-1252317822.file.myqcloud.com1603010200010001fc0303800……com.qidian.QDReader
ipv40a010a016f2cfdda4778680img.elongstatic.com474554202f656c6f6e6761707……com.dp.android.elong
ipv40a010a016f2931c149830443s10.mogucdn.com1603010200010001fc0303bb7……com.mogujie
…………………………………………

数据分析

数据集共包含 45 种不同业务,其中数量排名 Top10 的业务及其数量如下所示:

业务类型数量业务类型数量
com.qiyi.video1447com.achievo.vipshop575
com.tyyd.video1433cn.wps.moffice_eng573
com.kugou.android974com.mogujie435
com.cmcc.cmvideo698com.quark.browser433
com.huaxiaozhu.rider643com.shuqi.controller431

计算 hex_src_ip、hex_dst_ip、src_port、dst_port 和 host 特征与 label 间的皮尔逊相关系数,并将这些相关性系数表示为热图:

代码示例

对于 HTTP 业务中的 payload 数据,可以使用 Python 中的 binascii 库将 16 进制字符串转换为明文,然后使用自然语言处理(NLP)技术对其进行分析。16 进制字符串转换为明文的示例代码如下:

def hex_to_text(hex_string):
    # 将 16 进制字符串转换为字节序列
    byte_sequence = binascii.unhexlify(hex_string)
    # 尝试将字节序列解码为 UTF-8 文本
    try:
        text = byte_sequence.decode('utf-8')
    except UnicodeDecodeError:
        # 如果解码失败,可能是因为文本不是 UTF-8 编码,可选择其他编码尝试解码
        text = byte_sequence
    return text

hex_string = "474554202f61642f696d70726573733f696d707265737349643d66636465613836642d666132652d343965302d6166……"  # 省略……之后的字符串
text = hex_to_text(hex_string)
print(text)

打印结果如下:

GET /ad/impress?impressId=fcdea86d-fa2e-49e0-af54-5146116c28d8-1640918926145&zHash=H4sIAAAAAAAAAGVRwW7DIAz9F5%2BzCAJpk9wm7TJph0nbbr0QcFe0BCJGsnZV%2F32GVJ2mCQn5PZvnZ3OG0RscoIMn0R6gADVN1hD8PvVrWID2LqKLj4ne8kYK0TaSeDxGYs47wBB82EEXw4yXpDHHw01kjYk0b85mkbZteAH97MyAVKT9WOpRa7oWa9BT7fFuCj567Ye7BQPV8JIlIyoEm7HcMCaIMavZXvatrDmKPcda1hvKfFnnMDygGu5HP7v4epqoGSvAk4SLKlrvVvxJAsqZ4LPNdzLQnS%2BJX1Kjkg7RdkRLUNS8aoVkomlZI5vkIBv4zx%2Bg45WkOe1E%2BaoSJWckJcs6mYNuW1FvWjB0glFk5nC1BLxm7M8AefHrPzjUqSrmYaoCZrWmDC5W4y892%2BubUX2kHb94d7ppPg8q%2FwNnjDVkcJ9FLj%2Bt5T6DCwIAAA%3D%3D&traceId=838572d0-a703-418b-ba60-e4a95090871b&type=4&time=&direct=1&activityId=16501&mediaBuyId=119319&targetType=0&creativeId=105633&acFrequencyKey=dirAdacf_351293403890848_16501__19039&sdl=1 HTTP/1.1
Host: ggicaqz.miguvideo.com
Connection: keep-alive
User-Agent: Mozilla/5.0 (Linux; Android 10; NX659J Build/QKQ1.200405.002; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/80.0.3987.99 Mobile Safari/537.36
Accept: image/webp,image/apng,image/*,*/*;q=0.8
X-Requested-With: com.cmcc.cmvideo
Accept-Encoding: gzip, deflate
Accept-Language: zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7
Cookie: userInfo=%7B%22userId%22%3A%22750854220%22%2C%22userToken%22%3A%22nlps60C4238B1F0D358AEFF0%22%2C%22clientId%22%3A%2227fb3129-5a54-45bc-8af1-7dc8f1155501%22%2C%22sname%22%3A%22151****5723%22%2C%22mobile%22%3A%2215101085723%22%2C%22picture%22%3A%22http%3A%2F%2Fimg.cmvideo.cn%3A8080%2Fpublish%2Fvoms2%2Fuic_service%2Fpicture%2FuserImage%2F54

数据引用指南

如果您在研究中使用了本数据集,请按照如下方式引用:

@misc{ChinaMobile_IntelligentBusinessIdentification_2024,
  title = {智能业务识别},
  year = {2024},
  submitted by = {中国移动},
  publisher = {中国移动},
  doi = {10.12448/3si6-z716},
}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

网智圈--一起AI赋能网络

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值