- 博客(14)
- 资源 (2)
- 收藏
- 关注
转载 xgboost入门与实战(实战调参篇)
本文转载自:http://blog.csdn.net/sb19931201/article/details/52577592xgboost入门与实战(实战调参篇)前言前面几篇博文都在学习原理知识,是时候上数据上模型跑一跑了。本文用的数据来自kaggle,相信搞机器学习的同学们都知道它,kaggle上有几个老题目一直开放,适合给新手练级,上面还有很多老司机的方案共享以
2017-01-13 15:55:27 2829 1
转载 xgboost入门与实战(原理篇)
本文转载自:http://blog.csdn.net/sb19931201/article/details/52557382前言:xgboost是大规模并行boosted tree的工具,它是目前最快最好的开源boosted tree工具包,比常见的工具包快10倍以上。在数据科学方面,有大量kaggle选手选用它进行数据挖掘比赛,其中包括两个以上kaggle比赛的夺冠方案。
2017-01-13 15:50:46 3683
转载 BM算法 Boyer-Moore高质量实现代码详解与算法详解
本文转载自:http://www.cnblogs.com/xubenben/p/3359364.html鉴于我见到对算法本身分析非常透彻的文章以及实现的非常精巧的文章,所以就转载了,本文的贡献在于将两者结合起来,方便大家了解代码实现! 算法详解转自:http://www.searchtb.com/2011/07/%E5%AD%97%E7%AC%A6%E4%B8%B2%E
2017-01-11 17:09:40 1200
转载 AC自动机的一种简单实现
本文转载自:http://blog.csdn.net/VevoLiang/article/details/51673456ProblemDescription(本题源自ACM题库HDU 2222)In the modern time, Search engine came intothe life of everybody like Google, Baidu, etc.
2017-01-11 17:06:21 542
转载 使用simhash算法对网页去重
本文转载自:http://www.lai18.com/content/2095944.html如果搜索文档有很多重复的文本,比如一些文档是转载的其他的文档,只是布局不同,那么就需要把重复的文档去掉,一方面节省存储空间,一方面节省搜索时间,当然搜索质量也会提高。 simhash是google用来处理海量文本去重的算法。[b]1. 原理:[/b]simhash将一个文档转换
2017-01-07 11:23:51 2058
转载 simhash与Google的网页去重
本文转载自:http://leoncom.org/?p=650607前几天去吃葫芦头的路上,大飞哥给详细的讲解了他在比较文本相似度实验时对Google的simhash方法高效的惊叹,回来特意去找了原文去拜读。Simhash传统IR领域内文本相似度比较所采用的经典方法是文本相似度的向量夹角余弦,其主要思想是根据一个文章中出现词的词频构成一个向量,然后计算两篇文章对应向量的向量
2017-01-07 11:18:19 1671
转载 Gensim Word2vec简介
本文转载自:http://ju.outofmemory.cn/entry/80023本文主要基于Radim Rehurek的Word2vec Tutorial.准备输入Gensim的word2vec的输入是句子的序列. 每个句子是一个单词列表:>>> # import modules & set up logging>>> import gensim, loggi
2017-01-06 14:32:03 2279 1
转载 程序员必读书单 1.0 ----转自Lucida
本文转载自:http://lucida.me/blog/developer-reading-list/本文把程序员所需掌握的关键知识总结为三大类19个关键概念,然后给出了掌握每个关键概念所需的入门书籍,必读书籍,以及延伸阅读。旨在成为最好最全面的程序员必读书单。前言Reading makes a full man; conference a ready man; and w
2017-01-05 14:36:54 1751
转载 TensorFlow安装与测试
本文转载自:http://www.cnblogs.com/mydebug/p/4972276.html官网:http://tensorflow.org/安装步骤:1、sudo apt-get install python-pip python-dev python-virtualenv2、virtualenv --system-site-packages ~/tenso
2017-01-04 17:25:17 2043
转载 CentOS6.5+Theano+Keras安装
本文转载自:http://blog.csdn.net/gongshaojie12/article/details/50926342一,安装python2.7.11(编译共享库) 0. Python -V 1. yum -y update 2. yum groupinstall -y development 3. yum ins
2017-01-04 17:17:52 1084
转载 深度学习框架Keras安装
本文转载自:http://blog.csdn.net/u012556077/article/details/50364640之前本打算安装Caffe,但是依赖包太多了,大大小小的问题真是头疼,也是因为机器的原因,本来想在自己笔记本上就在实体机上安装Ubuntu然后装caffe等深度学习框架,但是固态硬盘最近出了问题,拿去返修了。无奈在虚拟机上安装(Caffe好像不行,或许不
2017-01-04 14:45:07 3039 1
转载 Ubuntu14.04安装Theano详细教程
本文转载自:http://blog.csdn.net/xuezhisdc/article/details/47065475因为最近需要学习深度学习,因此想要配置Theano,来开发深度学习算法。但是发现Theano安装总是出现问题。于是在这里中总结一下。环境操作系统:ubuntu14.04Python:2.7.6需要联网相关库简介BLAS(Bas
2017-01-04 14:30:34 1034
转载 基于深层神经网络的命名实体识别技术
本文转载自:http://www.csdn.net/article/1970-01-01/2825013摘要:命名实体识别是从文本中识别具有特定类别的实体,例如人名、地名、机构名等。命名实体识别是信息检索,查询分类,自动问答等问题的基础任务,其效果直接影响后续处理的效果,因此是自然语言处理研究的一个基础问题。引言命名实体识别(Named Entity Recogni
2017-01-03 16:38:08 1568
转载 文本关键词提取算法
本文转载自:http://www.cnblogs.com/a198720/p/3990666.html1.TF-IDF2.基于语义的统计语言模型文章关键词提取基础件能够在全面把握文章的中心思想的基础上,提取出若干个代表文章语义内容的词汇或短语,相关结果可用于精化阅读、语义查询和快速匹配等。采用基于语义的统计语言模型,所处理的文档不受行业领域限制,且能够识别出最新
2017-01-03 15:55:03 3663
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人