- 博客(10)
- 收藏
- 关注
原创 docker入门学习
1、基本概念 镜像:用程序员的角度来说,就是一个类 容器:镜像的实例,等同于类的实例 仓库:保存镜像的地方,分共有和私有的区别 问题1:实例数据如何保存 问:如果容器是镜像的实例,那么实例运行的数据保存在什么地方 答:通过传递文件路径,实例的数据保存在宿主主机的文件系统目录中(通过docker的数据管理来与宿主主机文件系统通信),传递过程可以参考文章使用Docker搭建GitLa
2017-01-18 11:21:07 705
原创 长文本如何兼顾效率情况下过滤垃圾信息
方法1:基于字符串精确匹配,一般使用Aho Corasick自动机结合DoubleArrayTrie来获得相关词,然后基于词的基础上,理解词与词的关系,理解语义(可以使基于规则的或者是统计的),从而进行判断 优点:精确匹配,容易处理变形 缺点:匹配词多,语义完全依赖于语义规则 方法2:分词后,做文本的IF-IDF,基于权重比较高的词进行语义判断 优点:最终判断的词少,语义判断性能好,但是语
2017-01-17 14:57:26 677
原创 集成性能测试性能收集之收集类实现
简单的一个性能收集类, 原理:在每个采集点上记录一条日志,完成后,如果总体时间超出要求,输出各个阶段的日志信息。
2017-01-12 16:06:29 331
原创 NLP相关概念
1、体系结构 2、知识图谱与NLP关系 所谓知识图谱听起来很高大上号称给计算机装上了大脑…其实无非就是从各种结构化/半结构化/非结构化数据中抽取实体/实体属性/实体之间的关系,构成一张图,这张图能够反映真实世界的相关信息,因为真实的世界在人类的认知当中就是由实体、属性和实体间的关系构成的获取这些东西的最大挑战无非就是实体识别、消歧(重名,别名)、实体关系挖掘等,这些归根到底都属于nl
2017-01-05 00:32:33 684
转载 互联网金融,如何用知识图谱识别欺诈行为
转:http://mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA==&mid=401686695&idx=1&sn=aa7ca7f5c448075771ebd3533857b422&scene=5&srcid=0109iyPi4BzttwVPwq8hC1qF#rd 2016-01-09 李文哲 大数据文摘 作者授权转载 作者:李文哲
2017-01-05 00:17:37 5527 3
转载 中文分词器分词效果的评测方法
转:http://www.codelast.com/ 现在有很多开源的中文分词器库,如果你的项目要选择其一来实现中文分词功能,必然要先评测它们的分词效果。如何评测?下面详细叙述。 【1】黄金标准/Golden standard 所谓的黄金标准是指:评价一个分词器分词结果的好坏,必然要有一份“公认正确”的分词结果数据来作为参照。 通常,我们使用一份人工标注的数据作为黄金标准。但是,
2017-01-05 00:03:46 2101
原创 python自然语言处理学习笔记-信息提取结构
处理流程: 1、分词(sentence segmentation),输出tokenization 2、词性标注(part of speech tagging),输出post-tagged sentences。NP-分块信息最有用的来源之一是词性标记。这是在我们的信息提取系统中进行词性标注的动机之一。 3、基于词性标注的实体识别(entity recognition),输出chunked se
2017-01-04 23:53:09 1334
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人