自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

lpty的博客

走进科学

  • 博客(6)
  • 收藏
  • 关注

原创 Kaggle:Getting Started of Titanic

一、概要泰坦尼克号幸存预测是Kaggle上参与人数最多的的比赛之一,要求参赛人员预测乘客是否能够幸存,是一个典型的二分类问题。二、数据简介官网提供训练数据集train.csv和测试数据集test.csv和一个提交样例数据集,数据中的各个字段如下:PassengerId: 乘客的IDSurvived:1代表幸存,2代表遇难Pclass:票类别-社会地位, 1代表Upper,2代表...

2018-05-19 17:03:16 1007

原创 知识图谱:行业图谱实战

一、前言关于知识图谱的概念,这里不加赘述,可以参考:知识图谱简介 下文会基于上市公司的基本数据,如:行业、地区、高管等,进行一个简单的实战。二、构建步骤1、数据抽取上市公司的信息可以从很多地方获取到,包括证监会或各类财经网站,或者工商局官网等等,基于获取难度与项目要求,使用以下网站: 新浪财经 巨潮资讯网(1)上市公司基本数据这里从新浪财经获取,基本没有难度,笔者已经...

2018-05-11 15:55:34 16281 3

原创 知识图谱:Konwledge Graph简介

一、概念Konwledge Graph来源于2012年谷歌提出的,用于增强其搜索引擎功能的知识库。 本质上,知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。现在的知识图谱已被用来泛指各种大规模的知识库。具体体现在谷歌搜索中输入:杭州景点,能够得到结构化的知识,而不是简单的网页链接: 知识图谱是一种结构化的语义知识库,其基本组成单位...

2018-05-10 20:12:40 4552

原创 Replace or Retrieve Keywords In Documents At Scale

一、概念Flashtext主要用于关键字搜索与替换,来自于论文:Replace or Retrieve Keywords In Documents At Scale 论文中提到,Flashtext基于 Trie 字典数据结构和 Aho Corasick,但从搜索方式上,只匹配完整的词而不会匹配子字符串,如: 模式串‘apple’不会匹配到字符串’I like Pineapple’中的‘ap...

2018-05-04 10:56:31 2120 3

原创 How to Strike a Match

一、概念来自于Simon White发表的一篇文章:How to Strike a Match 这个算法主要为了满足以下三个需求:(1)字符串之间只是在某几个字符处出现不同,那么相似度应该比较高。(2)字符串的区别只是相同的词组以不同的顺序排列,那么相似度应该比较高。(3)语言无关性,算法应该满足多种语言的的相似度计算。论文中对比了几种相似度算法, Soundex Algor...

2018-05-02 15:55:08 1163

原创 From Word Embeddings To Document Distances

一、概念词移距离来自于论文:From Word Embeddings To Document Distances 从论文题目可以看出,主要是基于词向量的工作。w2v构造了一个词与词之间衡量相似度的方法,但是对于句子或者文档来说,单纯基于词的衡量方法在一定程度上遗漏了句子的信息,而WMD参考了EMD的内容,成为计算文档相似度的一种方法。二、思想如果希望反映出文档的内在含义,一个比较直观...

2018-05-02 11:33:17 4109

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除