自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Thinkgamer博客

处女作:推荐系统开发实战,公众号:搜索与推荐Wiki

  • 博客(17)
  • 资源 (19)
  • 收藏
  • 关注

原创 IK Analyzer 和 lucene结合使用

特别注意:版本问题(IK Analyzer的版本中注意各个版本的细微区别,小编就是栽在IK Analyzer2012_U5 和IK Analyzer2012FF上了)版本匹配:1、IK Analyzer 2012_U5 支持的是 lucene 3.2-3.6版本2、IK Analyzer2012 FF(你问啥是FF,其实就是For 4.0,在API和功能上保持不变,只是让其支持了Luc...

2015-07-31 14:29:28 5274 1

原创 《图论》——深度优先搜索算法(DFS)

十大算法之广度优先遍历:深度优先搜索遍历类似于树的先序遍历。假定给定图G的初态是所有顶点均未被访问过,在G中任选一个顶点i作为遍历的初始点,则深度优先搜索递归调用包含以下操作:(1)访问搜索到的未被访问的邻接点;(2)将此顶点的visited数组元素值置1;(3)搜索该顶点的未被访问的邻接点,若该邻接点存在,则从此邻接点开始进行同样的访问和搜索。深度优先搜索DFS可...

2015-07-31 09:55:35 3584

原创 四、伪分布下安装hive1.2

声明:本篇blog并没有配置MySQL,元数据库为derby如需配置mysql请点击:http://blog.csdn.net/gamer_gyt/article/details/47776369一、环境Ubuntu14.04hadoop2.6伪分布(安装教程请参考:点击打开链接)hive-1.2.1(下载链接:点击打开链接)二、安装1、将其下载的安装包解压到相应的目录...

2015-07-30 15:57:36 5582 3

原创 《图论》——广度优先遍历算法(BFS)

十大算法之广度优先遍历:本文以实例形式讲述了基于Java的图的广度优先遍历算法实现方法,具体方法如下:用邻接矩阵存储图方法:1.确定图的顶点个数和边的个数2.输入顶点信息存储在一维数组vet中3.初始化邻接矩阵;4.依次输入每条边存储在邻接矩阵array中输入边依附的两个顶点的序号i,j;将邻接矩阵的第i行第j列的元素值置为1;将邻接矩阵的第j行第i列的元素值置为1...

2015-07-30 11:57:15 4115 2

原创 《排序算法》——堆排序(大顶堆,小顶堆,Java)

十大算法之堆排序:堆的定义如下:  n个元素的序列{k0,k1,...,ki,…,k(n-1)}当且仅当满足下关系时,称之为堆。  " ki<=k2i,ki<=k2i+1;或ki>=k2i,ki>=k2i+1.(i=1,2,…,[n/2])"  若将和此次序列对应的一维数组(即以一维数组作此序列的存储结构)看成是一个完全二叉树,  则完全二叉树中每一个节...

2015-07-30 09:12:54 4425

原创 hbase shell 基本操作命令

具体的hbase shell 命令如下表所示:查看hbase 的状态 : status查看hbase 的版本 : version创建scores表: create ‘scores’,‘grad’,'course'查看当前hbase 中有哪些表: ...

2015-07-29 18:26:59 3121

原创 三、伪分布环境下安装hbase

环境说明: 1、hadoop2.6伪分布安装:具体请参考博主的一篇文章:http://blog.csdn.net/gamer_gyt/article/details/46793731 2、Ubuntu14.04 3、hbase-0.98.13-hadoop2-bin,hbase下载链接:http://apache.mirrors.tds.net/hbase/安装配...

2015-07-29 14:17:05 2780

原创 线性查找算法

十大算法之线性查找:介绍:BFPRT算法解决的问题十分经典,即从某n个元素的序列中选出第k大(第k小)的元素,通过巧妙的分 析,BFPRT可以保证在最坏情况下仍为线性时间复杂度。该算法的思想与快速排序思想相似,当然,为使得算法在最坏情况下,依然能达到o(n)的时间复杂 度,五位算法作者做了精妙的处理。时间复杂度O(N)算法步骤:1.将n个元素每5个一组,...

2015-07-29 12:25:47 4286

原创 二分查找算法

十大算法之二分查找:二分查找算法是在有序数组中用到的较为频繁的一种算法,在未接触二分查找算法时,最通用的一种做法是,对数组进行遍历,跟每个元素进行比较,其时间为O(n).但二分查找算法则更优,因为其查找时间为O(lgn),譬如数组{1, 2, 3, 4, 5, 6, 7, 8, 9},查找元素6,用二分查找的算法执行的话,其顺序为: 1.第一步查找中间元素,即5,由于5<6,则6必...

2015-07-29 10:44:54 3077 2

原创 《排序算法》——快速排序(Java)

十大算法之快速排序:方法其实很简单:分别从初始序列“6 1 2 7 9 3 4 5 10 8”两端开始“探测”。先从右往左找一个小于6的数,再从左往右找一个大于6的数,然后交换他们。这里可以用两个变量i和j,分别指向序列最左边和最右边。我们为这两个变量起个好听的名字“哨兵i”和“哨兵j”。刚开始的时候让哨兵i指向序列的最左边(即i=1),指向数字6。让哨兵j指向序列的最右边...

2015-07-29 09:44:28 2436

原创 搜索引擎:MapReduce实战----倒排索引

1.倒排索引简介倒排索引(Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。有两种不同的反向索引形式:一条记录的水平反向索引(或者反向档案索引)包含每个引用单词的文档的列表。 一个单词的水平反向索引(或者完全反向索引)又包含每个单词在一个文...

2015-07-28 10:23:59 4783 1

原创 MapReducer中的多次归约处理

我们知道,MapReduce是分为Mapper任务和Reducer任务,Mapper任务的输出,通过网络传输到Reducer任务端,作为输入。在Reducer任务中,通常做的事情是对数据进行归约处理。既然数据来源是Mapper任务的输出,那么是否可以在Mapper端对数据进行归约处理,业务逻辑与Reducer端做的完全相同。处理后的数据再传送到Reducer端,再做一次归约。这样的好处是减少了...

2015-07-28 09:06:41 3055

原创 hadoop命令——hdfs

hdfs是hadoop大体系下的分布式文件管理系统,是英文Hadoop Distributed File System的简写,其常用命令如下:一:fs命令(和Linux终端运行命令一致,也是hdfs最常用命令)二:其他相关命令1、hadoop 归档文件shell:hadoop archive -archiveName file.har -p /gyt/input /gyt/out...

2015-07-11 17:11:32 2637

原创 VirtualBox 虚拟Ubuntu系统与主机互ping

互ping的前提是主机和虚拟机的ip地址在同一波段【eg:主机为:192.168.1.10虚拟Linux:192.168.1.11】1、设置主机ip:打开网络共享中心->更改适配器设置->以太网,修改其ip在主机上运行CMD输...

2015-07-08 23:04:18 5944

原创 linux 环境下通过ifconfig命令配置ip地址

Linux下网卡命名规律:eth0,eth1。第一块以太网卡,第二块。lo为环回接口,它的IP地址固定为127.0.0.1,掩码8位。它代表你的机器本身。ifconfig [Interface] 是查看网卡的信息 ,如果不加参数查看的是所有的网卡信息加上参数eth0的话是查看eth0网卡的信息网卡信息的一些解释:第一行:连接类...

2015-07-08 12:31:26 5562

原创 二、hadoop伪分布搭建

环境 虚拟机:VirtualBoxUbuntu:14.04hadoop:2.6安装 1、创建hadoop用户sudo useradd -m hadoop -s/bin/bash【Ubun...

2015-07-07 20:14:49 7136 3

原创 MySQLdb的安装与使用

一、安装安装已编译版本(此方法简便快捷):http://www.codegood.com/downloads根据自己系统下载,双击安装,搞定然后import MySQLdb,查看是否成功我的,win7,32位,2.7版本MySQL-python-1.2.3.win-amd32-py2.7.exe二、使用#!/usr/bin/python# encoding...

2015-07-05 11:44:08 3228

grafana-6.3.3-1 rpm安装包.zip

grafana-6.3.3-1.x86_64.rpm 安装包,

2020-04-09

word2vec.zip

word2vec 官方资源未修改版和malloc函数替换版,官方源码 需要科学上网才能获取,这里进行提供,同时mac os系统下需要修改malloc函数方可使用,这里也提供一份修改后的

2019-11-13

NLP汉语自然语言处理原理与实战

自然语言处理大体是从1950年代开始,虽然更早期也有作为。1950年,图灵发表论文“计算机器与智能”,提出现在所谓的“图灵测试”作为判断智能的条件。 1954年的乔治城实验涉及全部自动翻译超过60句俄文成为英文。研究人员声称三到五年之内即可解决机器翻译的问题。[1]不过实际进展远低于预期,1966年的ALPAC报告发现十年研究未达预期目标,机器翻译的研究经费遭到大幅削减。一直到1980年代末期,统计机器翻译系统发展出来,机器翻译的研究才得以更上一层楼。 1960年代发展特别成功的NLP系统包括SHRDLU——一个词汇设限、运作于受限如“积木世界”的一种自然语言系统,以及1964-1966年约瑟夫·维森鲍姆模拟“个人中心治疗”而设计的ELIZA——几乎未运用人类思想和感情的讯息,有时候却能呈现令人讶异地类似人之间的互动。“病人”提出的问题超出ELIZA 极小的知识范围之时,可能会得到空泛的回答。例如问题是“我的头痛”,回答是“为什么说你头痛?

2018-06-15

一种人脸表情分类的新方法_Manhattan距离

一种人脸表情分类的新方法_Manhattan距离_李俊华.pdf

2017-07-15

gephi-0.9.1-windows.exe

2017-02-14

mysql-connector-java-5.0.4-bin.jar

2017-02-14

commons-el-1.0.jar,jasper-compiler.jar,jasper-runtime.jar

commons-el-1.0.jar,jasper-compiler.jar,jasper-runtime.jar

2016-07-28

delicious.dat

经过预处理的。数据格式 [ USER_ID , URL_ID , Tags ] 。

2016-06-16

kosarak.dat

FP_Tree算法构建新闻点击流的数据集

2016-05-09

从疝气病症预测病马的死亡率的测试数据集

2016-04-25

从疝气病症预测病马的死亡率的训练数据集

从疝气病症预测病马的死亡率的训练数据集,机器学习实战第五章logistic回归实例数据

2016-04-25

hadoop-eclipse-plugin-2.6.0.jar

hadoop-eclipse-plugin-2.6.0.jar

2015-08-02

lucene4.3.0+IK Analyzer2012FF

lucene4.3.0+IK Analyzer2012FF

2015-07-31

IKAnalyzer_all_jar

IKAnalyzer_all_jar,适用于中文分词(Java和mapreduce)

2015-07-31

十大算法之线性查找算法

算法步骤: 1. 将n个元素每5个一组,分成n/5(上界)组。 2. 取出每一组的中位数,任意排序方法,比如插入排序。 3. 递归的调用selection算法查找上一步中所有中位数的中位数,设为x,偶数个中位数的情况下设定为选取中间小的一个。 4. 用x来分割数组,设小于等于x的个数为k,大于x的个数即为n-k。 5. 若i==k,返回x;若ik,在大于x的元素中递归查找第i-k小的元素。 终止条件:n=1时,返回的即是i小元素。

2015-07-29

高精度的加减乘除

高精度对于初学者来说并不是容易的,所以小编在这里这里整理了高精度的加减乘除运算,在一个程序中实现,希望对各位童鞋有所帮助

2014-08-23

securboot未完全配置消除补丁

在我们新安装windows系统后在桌面右下角会出现securboot未完全配置消除补丁这些字,若在BIOS中设置的话对电脑某些功能有影响(如电脑装有双系统,另一个系统进不去,或者电脑不能正常开机),此时就需要这样一个补丁来解决这个问题

2014-08-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除