公安数据集成

 

建立部、省、市三级分布式资源服务源的数据体系,缺乏有效手段;

 

大数据分析(关系类分析、时空分析、比对摸排、态势分析、对象关注);

专题服务(涉藏专题应用、涉疆专题应用、侦查专题应用);

 

交警应用

公安机关在社会管理中,通过采集驾驶员手机的GPS数据,就可以分析出当前哪些道路正在堵车,交警部门可以及时发布道路交通提醒;通过采集汽车的GPS位置数据,就可以分析城市的哪些区域停车较多,这也代表该区域有着较为活跃的人群,这些数据对于分析预测重大群体性事件非常重要。

 

电信诈骗应用

电信诈骗是当今社会的一大顽疾,如果公安机关、电信部门、银行、互联网等各方摒弃利益纠结,共享各自的“大数据”,那么最大限度地杜绝电信诈骗是完全可能的。我们融合这些“大数据”的信息进行关联挖掘,找出电信诈骗相关性的数据因数,然后建立动态监控模型,那么一旦相关数据出现,公安机关根据数据链就可以快速找到诈骗犯罪嫌疑人。

 

高发地区

利用公安大数据可以预防和打击犯罪。用云计算以及大量数据定位那些最易受到不法份子侵扰片区,利用大量数据创建一张犯罪高发地区热点图。在研究某一片区的犯罪率时,将相邻片区的各种因素列为考虑的对象,为警方更具针对性的锁定犯罪易发点、抓获逃犯提供支持。

 

1个平台支撑N个应用的大数据平台体系架构

 

==

电子警察疑似套牌自动识别系统

(1)示例目标

这个例子的目的是找出近12亿“电子警察”(卡口视频捕获系统)的套牌车,这可以被称为“怀疑甲板车模型”。与一般的数据挖掘方法一样,处理大数据的原则是“以业务规则为核心,基于数据资源,支持计算能力”。这个例子是在2011年初开始的,经过大约6个月的研究开发和应用讨论,并取得了一些实际成果。

(2)操作流程

第一步,业务规则。这个商业调查规则的例子是:在短时间内,同一牌照不能被不同的路口“电子警察”捕获设备捕获。其中涉及三个变量,一是时间,二是车牌,三是“电子警察”的地理位置。在与交通警察部门商务规则研究后,最后的数字是:在5分钟内,如果距离大于10公里“电子警察”同时捕获相同的牌照,牌照可能是套牌,因为速度一般不能超过120公里/小时。另外,“电子警察”位置的纬度和经度测量其直线距离,短于道路的实际距离。

第二步,数据准备。如果你面临着一百万的数据,常规的SQL查询可以解决这个问题。如果数据量大的话,使用分区表的形式一般可以解决这个问题。然而,在该示例中,遇到的第一数据是车辆捕获数据。数据量是3年“电子警察”捕获的数据总和,目前南通每天约8亿次,最近三年的数据融合到约12亿。因此,本示例的总体技术框架可以使用“HADOOP + ORACLE”来描述超过1亿个数据。这指的是数据的数量,因为结构是为数据,我相信首先大量的结构化数据处理到位,然后开始半结构化,非结构化大数据研究。 100万或以上的数据用分布式HADOOP直接处理,或者称为预处理,可以处理成百万或者数百万的数据,然后依靠传统的ORACLE来处理。第二个数据是“电子警察”的地理位置数据,可以从PGIS获得支持,获取城市的“电子警察”的纬度和经度信息。将所有城市的“电子警察”刺刀坐标建立辅助表,如表1所示。记录每个刺刀的纬度和经度,以计算不同刺刀准备之间的距离。最后,有一个重要的数据时间。城市的“电子警察”捕获设备必须统一定时,否则超过1000亿的数据模型将失去其意义。

第三步,利用 HADOOP 计算。这是最关键的一步,将 12 亿“电子警察”抓拍车牌数据,利用分块的模式,分别存储到 10 台普通 PC 服务器集群的 HADOOP 分布式存储环境中。每个块存储 300 万数据,分 380 个块存储在 9 台数据节点中,共占用存储空间 103 G。在数据传输交换上,使用分布式索引创建工具,经过 3 小时 10 分钟将数据从不同的oralce 数据库存储到 HDFS 分布式存储环境中,见图1 所示。

而后,采用 HADOOP 的 MAP -REDUCE 模型,对分块数据分别进行运算,首先使用 MAP 对每个车在卡口的时间进行分组,MAP 执行结束后,使用REDUCE 对各个块的数据按照车牌号进行汇总,再使用 MAP 对每个车在卡口出现的时间与不同卡口之间的距离进行运算,对于在小于 5 分钟内,在距离大于 10 公里的卡口同时出现的车辆,认定为疑似套牌车。最后使用 REDUCE 将统计结果汇总。其具体执行过程见图 2 所示。

第四步,结果。这个运算模型在 10 台 PC 服务器组成的 HADOOP 集群中,以 40 个初始 MAP 进行分布式执行,经过约 50 分钟执行完毕,共排查出394 辆疑似套牌车牌。这个效率已经基本能够满足应用要求

大数据

( 3) 结果应用。

(人工辅助)技术部门和交警部门共同研究分析了上述结果,发现在这 394 辆车里,有约三分之二( 也就是 250 辆左右) 是因为自动识别系统的误判造成的错误信息( 如 B 和 8、D 和 0 容易出现误判) ,这说明公安机关抓拍设备的识别率还要提升。在余下的约 150 辆车中,已经在控的约有 60 辆,其他 90 余辆车通过人工辨别、研判,确认为新发现的套牌车,现已全部纳入了套牌车布控查缉系统开展后续工作。

案例2:非法犯罪者留在酒店法律

示例目标:分析被拘留10年的被拘留者的法律,为安全防范工作提供指导。

通过多方努力,我们聚集了10年的酒店数据约5亿,10年的本地员工数据约为65万。使用计算机集群,我们首先建立了一个比较模型,根据HADOOP组织数据,并将65万人数据放入5亿个住宿数据中,以找到相同的项目。以“10 + 1”模式,即10个服务器为数据节点,1个为控制节点,再次“运行”时间约为50分钟。过去10年在押的人员曾经入住旅馆数据约72. 1 万条。

(1)所有被拘留者占酒店入住率的比例分析,具体情况如图3所示。

这是一种更传统的分析方法。面对70万的小数据,从10年所有被拘留者自己检查情况,可以称为“自我比例”分析。从图中可以看出,如图3所示,“占有率”的第一峰值为约22点,第二峰值为约13点,谷值为约6点钟。这表明,根据过去十年累积的数据,我们关注的是嫌疑人留在酒店的关键时间应该是晚上10点左右和下午1点左右。

大数据

( 2) 针对全部入住旅馆人员各时段占比分析,具体情况见图4

根据 10 年来全部数据量的规模,传统的关系型数据库处理这些数据效率会很低。用 HADOOP 的MAP -REDUCE 计算框架,15 分钟左右全部完成计算工作,得出图 4 中的结果,可与第一项在押人员入住规律作比较。通过对比可以明显看出,在押人员入住“自占比”趋势与全部人员入住占比的趋势基本一致。这说明在 21 时和下午 1 时左右,本身也是正常人员入住旅馆的高峰时间。因此,这项分析虽有意义,但是针对实战的指导性分析还需要进一步研究。

大数据

( 3) 各时段在押入住旅馆人员与该时段全部正常入住人员的占比分析。

如果把上面的比较分析方式称为关注对象的“自占比”,那还有另一种比较方式,即关注对象与全部对象之间的比较,我们可称为“全占比”。各时段在押人员入住旅馆的“全占比”情况见图 所示。

大数据

大数据==

运用公安大数据解决方案提升侦查能力的可行性

个人事务、职务行为信息化管理已初步实现。个人的财物流转、行踪轨迹、社会交往等方面已基本实现信息化管理,人们几乎无一例外地生活在数字信息的网格之中。通过挖掘和分析这些信息,我们能获取案件要素资料,明确侦查方向。从职务行为的信息化管理来看,重要管理领域的信息化管理已基本实现,随着职务行为信息的实时、同步录入,部门信息壁垒被打破,日趋规范的信息化管理为侦查提供了更多的涉案线索和可供调取的证据材料。

职务犯罪行为信息痕迹增多,犯罪行为的信息化手段也非常明显。侦查学上有“物质痕迹”原理,是侦查的基本理论支撑。但是在信息时代,传统的“物质痕迹”越来越多地被“信息痕迹”所取代。与物质痕迹相比,信息痕迹更难以被销毁和灭失。另外,大量信息不为当事人自己所控制,而是存储于第三方。因此,职务犯罪行为信息化手段越明显,留下的信息痕迹就越多。运用信息资源整合分析工具软件,进行交叉碰撞比对,可为侦查开辟新的天地。

==

商业应用上的数据多为结构化数据,每个数据都由一系列明确的描述属性组成,大数据处理系统则可以根据使用者的要求将不同的属性进行归类,从而发现和掌握事物发展的客观规律。而视频则不然,除了时间和空间的属性外,并没有其他的标签。除了按照时间和地点查找相应的视频外,大多的视频只能靠人慢慢甄别,这离大数据应用还相去甚远。

 

要做到大数据应用,就必须为每个视频贴上更多的属性标签,也就是业内所说的结构化过程。作者认为这是未来视频应用技术的制高点,其核心是模式识别算法,要做到自动把视频中的特征识别出来贴上标签后入库。这样在日后需要的时候,才能实现海量视频的快速查询和碰撞研判,甚至能像商业大数据那样做到归类统计。

结构化的意义不难理解,只是真正实现起来很难,作者总结了有几个原因:

识别什么特征?一副图像或者一段视频可以有无数角度的标签属性去描述,什么才是我们需要的属性?这与我们需要得到的目的密切相关,这就需要公安图侦的人才来归纳终结。

识别算法开发难,由于是平面图像,因此特征的识别主要原理就是看图像区域中的轮廓、颜色、纹理与特征库进行比较。但是在同一个物体在不同监控角度的摄像头中显示出的轮廓都不相同,因此无法做到识别。

大规模数据处理难,即使做到了识别算法,但是如果要通过数据处理服务器的形式对大规模的视频进行结构化处理,这个建造成本巨大,其能源的耗费在中国这个夏季需要限电的情况里也不切实际。

如此看来,视频结构化的路似乎走不通,但是,目前在业内也出现了许多“曲线救国”的方法。比如:

物联网等更多感知技术的应用,本文虽然主题是视频大数据,但在业务的发展中,也积极倡议除了视频外,融入更多的物联网感知技术,如RFID技术等,作为视频结构化信息的一个有效补充。

大力发展电警卡口建设:目前电警卡口在图侦上的应用需求和频率早就超越了交警,因为案件基本都要与车辆发生联系,这能找出很多的线索。而卡口电警对于车辆的抓拍角度是相对固定的,能够开发出相应的车辆特征识别技术,电警卡口属于业务需求和技术实现的一个很好的匹配点。

双目等特种摄像机的开发,突破平面图像特征的局限,得到更精准的三维系信息,如人体数量,高度,物体长度等。类似的产品适合应用在重点区域,符合国内目前严峻的反恐形势。

结构化识别前移:在摄像机采集到图像的同时就要做好结构化的工作,例如卡口摄像机,就应该把智能识别的算法集成进去。目前不少厂商都推出了相应的智能卡口摄像机,建议政府应该大力推广,在老卡口摄像机更新换代的时候使用这类智能卡口摄像机进行替代,为未来大规模进行视频结构化做好准备。

==

搭建公安信息数据仓库。数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,可以对相应的数据进行各个层面的多维的分析。网络信息社会,每个人的身后都拖着一根长长的信息的尾巴,有户籍信息、学籍信息、求职信息、就业信息、通话信息、银行卡信息,他的每一件事、每一个行为,都会留下相应的信息,当然,犯罪嫌疑人的犯罪行为也不例外。我们要整合这些数据和信息,通过数据仓库管理这些格式化和非格式化的数据,对相应的犯罪信息数据挖掘。

开发数据挖掘智能软件。数据挖掘就是从海量的数据中用一定的算法分析计算,得到我们所需要信息和知识的过程,可以在保证时效性的前提下对更加庞大的数据样本进行分析,使结果更为精确。在街景的海量监控视频中,犯罪分子留下的踪影也许只有几秒钟。对于海量犯罪信息的分析研判,仅仅依靠人工是难以做到的,且不说人工在工作量和工作强度上难以胜任,即使分析了大量的数据,其结果的时效性和准确性也是难以达到要求的,但计算机数据挖掘可以使这个问题迎刃而解。选择恰当的算法可以在极短的时间内分析人工无法完成的海量犯罪记录数据。

加强数据分析人才的培养。一是机构要健全,配备专门人员从事警务“大数据”工作,统一规范,职能明确。二是加强有关数据分析技术的培训,使先进的信息技术与公安业务融合。三是培育“大数据”警务团队的创新文化,使警务情报紧跟“大数据”时代的步伐。

==

  • 布控预警

以单条件或布控库通过大数据分析,利用多种属性(如人脸抓拍、卡口过车、WIFI采集、住宿登记、上网登记、出行记录)的数据对嫌疑对象进行布控,形成多维度布控的“电子防线”

==

 

转载于:https://www.cnblogs.com/yue31313/p/10362017.html

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值