2018年05月_lpty

原创 Kaggle：Getting Started of Titanic

一、概要泰坦尼克号幸存预测是Kaggle上参与人数最多的的比赛之一，要求参赛人员预测乘客是否能够幸存，是一个典型的二分类问题。二、数据简介官网提供训练数据集train.csv和测试数据集test.csv和一个提交样例数据集，数据中的各个字段如下：PassengerId: 乘客的IDSurvived：1代表幸存，2代表遇难Pclass：票类别-社会地位， 1代表Upper，2代表...

2018-05-19 17:03:16 1007

原创知识图谱：行业图谱实战

一、前言关于知识图谱的概念，这里不加赘述，可以参考：知识图谱简介下文会基于上市公司的基本数据，如：行业、地区、高管等，进行一个简单的实战。二、构建步骤1、数据抽取上市公司的信息可以从很多地方获取到，包括证监会或各类财经网站，或者工商局官网等等，基于获取难度与项目要求，使用以下网站：新浪财经巨潮资讯网（1）上市公司基本数据这里从新浪财经获取，基本没有难度，笔者已经...

2018-05-11 15:55:34 16281 3

原创知识图谱：Konwledge Graph简介

一、概念Konwledge Graph来源于2012年谷歌提出的，用于增强其搜索引擎功能的知识库。本质上，知识图谱是一种揭示实体之间关系的语义网络，可以对现实世界的事物及其相互关系进行形式化地描述。现在的知识图谱已被用来泛指各种大规模的知识库。具体体现在谷歌搜索中输入：杭州景点，能够得到结构化的知识，而不是简单的网页链接：知识图谱是一种结构化的语义知识库，其基本组成单位...

2018-05-10 20:12:40 4552

原创 Replace or Retrieve Keywords In Documents At Scale

一、概念Flashtext主要用于关键字搜索与替换，来自于论文：Replace or Retrieve Keywords In Documents At Scale 论文中提到，Flashtext基于 Trie 字典数据结构和 Aho Corasick，但从搜索方式上，只匹配完整的词而不会匹配子字符串，如：模式串‘apple’不会匹配到字符串’I like Pineapple’中的‘ap...

2018-05-04 10:56:31 2120 3

原创 How to Strike a Match

一、概念来自于Simon White发表的一篇文章：How to Strike a Match 这个算法主要为了满足以下三个需求：（1）字符串之间只是在某几个字符处出现不同，那么相似度应该比较高。（2）字符串的区别只是相同的词组以不同的顺序排列，那么相似度应该比较高。（3）语言无关性，算法应该满足多种语言的的相似度计算。论文中对比了几种相似度算法， Soundex Algor...

2018-05-02 15:55:08 1163

原创 From Word Embeddings To Document Distances

一、概念词移距离来自于论文：From Word Embeddings To Document Distances 从论文题目可以看出，主要是基于词向量的工作。w2v构造了一个词与词之间衡量相似度的方法，但是对于句子或者文档来说，单纯基于词的衡量方法在一定程度上遗漏了句子的信息，而WMD参考了EMD的内容，成为计算文档相似度的一种方法。二、思想如果希望反映出文档的内在含义，一个比较直观...

2018-05-02 11:33:17 4109

lpty的博客

原创 Kaggle：Getting Started of Titanic

原创知识图谱：行业图谱实战

原创知识图谱：Konwledge Graph简介

原创 Replace or Retrieve Keywords In Documents At Scale

原创 How to Strike a Match

原创 From Word Embeddings To Document Distances

空空如也

空空如也

原创 Kaggle：Getting Started of Titanic

原创 知识图谱：行业图谱实战

原创 知识图谱：Konwledge Graph简介

原创 Replace or Retrieve Keywords In Documents At Scale

原创 How to Strike a Match

原创 From Word Embeddings To Document Distances

空空如也

空空如也

原创知识图谱：行业图谱实战

原创知识图谱：Konwledge Graph简介