2018年09月_打个大西瓜77

12月 11月 09月 08月 07月 06月 05月 04月 03月

转载 NLP文本相似度(TF-IDF)

我们在比较事物时，往往会用到“不同”，“一样”，“相似”等词语，这些词语背后都涉及到一个动作——双方的比较。只有通过比较才能得出结论，究竟是相同还是不同。但是万物真的有这么极端的区分吗？在我看来不是的，生活中通过“相似度”这词来描述可能会更加准确。比如男人和女人，虽然生理器官和可能思想有些不同，但也有相同的地方，那就是都是人，就是说相似度不为0；比如石头与小草，它们对于虚拟类都是一种实体类，相似...

2018-09-28 14:04:46 2481

转载哈工大赛尔 | 事理图谱：事件演化的规律和模式

引言事件是人类社会的核心概念之一，人们的社会活动往往是事件驱动的。事件之间在时间上相继发生的演化规律和模式是一种十分有价值的知识。然而，当前无论是知识图谱还是语义网络等知识库的研究对象都不是事件。为了揭示事件的演化规律和发展逻辑，本文提出了事理图谱的概念，作为对人类行为活动的直接刻画。在图结构上，与马尔科夫逻辑网络（无向图）、贝叶斯网络（有向无环图）不同，事理图谱是一个有向有环图。现实世界中事...

2018-09-27 09:43:29 2660

转载知识抽取-实体及关系抽取(一)

知识抽取涉及的“知识”通常是清楚的、事实性的信息，这些信息来自不同的来源和结构，而对不同数据源进行的知识抽取的方法各有不同，从结构化数据中获取知识用 D2R，其难点在于复杂表数据的处理，包括嵌套表、多列、外键关联等，从链接数据中获取知识用图映射，难点在于数据对齐，从半结构化数据中获取知识用包装器，难点在于 wrapper 的自动生成、更新和维护，这一篇主要讲从文本中获取知识，也就是我们广义上说的...

2018-09-27 09:28:34 37191 3

转载微服务实战（一）：微服务架构的优势与不足

这篇文章作者是Chris Richardson，他是早期基于Java的Amazonite EC2 PaaS平台CloudFoundry.com的创始人。现在他为企业提供如何开发和部署应用的咨询服务。他也经常在http://microservices.io上发表有关微服务的文章。　　微服务正在博客、社交媒体讨论组和会议演讲中获得越来越多的关注，在Gartner的2014 Hype Cycle上它...

2018-09-06 15:03:39 250

转载 ETL概念

ETL概念 ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。通常情况下，在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。　　ETL的设计分三部分：数据抽取、数据的清洗转换、数据的加载。在设计E...

2018-09-05 17:13:42 701 1

spark快速大数据分析

spark入门学习资料，经典文献。Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法

2018-07-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人