- 博客(6)
- 收藏
- 关注
原创 Kaggle:Getting Started of Titanic
一、概要泰坦尼克号幸存预测是Kaggle上参与人数最多的的比赛之一,要求参赛人员预测乘客是否能够幸存,是一个典型的二分类问题。二、数据简介官网提供训练数据集train.csv和测试数据集test.csv和一个提交样例数据集,数据中的各个字段如下:PassengerId: 乘客的IDSurvived:1代表幸存,2代表遇难Pclass:票类别-社会地位, 1代表Upper,2代表...
2018-05-19 17:03:16 1007
原创 知识图谱:行业图谱实战
一、前言关于知识图谱的概念,这里不加赘述,可以参考:知识图谱简介 下文会基于上市公司的基本数据,如:行业、地区、高管等,进行一个简单的实战。二、构建步骤1、数据抽取上市公司的信息可以从很多地方获取到,包括证监会或各类财经网站,或者工商局官网等等,基于获取难度与项目要求,使用以下网站: 新浪财经 巨潮资讯网(1)上市公司基本数据这里从新浪财经获取,基本没有难度,笔者已经...
2018-05-11 15:55:34 16281 3
原创 知识图谱:Konwledge Graph简介
一、概念Konwledge Graph来源于2012年谷歌提出的,用于增强其搜索引擎功能的知识库。 本质上,知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。现在的知识图谱已被用来泛指各种大规模的知识库。具体体现在谷歌搜索中输入:杭州景点,能够得到结构化的知识,而不是简单的网页链接: 知识图谱是一种结构化的语义知识库,其基本组成单位...
2018-05-10 20:12:40 4552
原创 Replace or Retrieve Keywords In Documents At Scale
一、概念Flashtext主要用于关键字搜索与替换,来自于论文:Replace or Retrieve Keywords In Documents At Scale 论文中提到,Flashtext基于 Trie 字典数据结构和 Aho Corasick,但从搜索方式上,只匹配完整的词而不会匹配子字符串,如: 模式串‘apple’不会匹配到字符串’I like Pineapple’中的‘ap...
2018-05-04 10:56:31 2120 3
原创 How to Strike a Match
一、概念来自于Simon White发表的一篇文章:How to Strike a Match 这个算法主要为了满足以下三个需求:(1)字符串之间只是在某几个字符处出现不同,那么相似度应该比较高。(2)字符串的区别只是相同的词组以不同的顺序排列,那么相似度应该比较高。(3)语言无关性,算法应该满足多种语言的的相似度计算。论文中对比了几种相似度算法, Soundex Algor...
2018-05-02 15:55:08 1163
原创 From Word Embeddings To Document Distances
一、概念词移距离来自于论文:From Word Embeddings To Document Distances 从论文题目可以看出,主要是基于词向量的工作。w2v构造了一个词与词之间衡量相似度的方法,但是对于句子或者文档来说,单纯基于词的衡量方法在一定程度上遗漏了句子的信息,而WMD参考了EMD的内容,成为计算文档相似度的一种方法。二、思想如果希望反映出文档的内在含义,一个比较直观...
2018-05-02 11:33:17 4109
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人