2015年07月_搜索与推荐Wiki

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 01月

原创 IK Analyzer 和 lucene结合使用

特别注意：版本问题（IK Analyzer的版本中注意各个版本的细微区别，小编就是栽在IK Analyzer2012_U5 和IK Analyzer2012FF上了）版本匹配：1、IK Analyzer 2012_U5 支持的是 lucene 3.2-3.6版本2、IK Analyzer2012 FF（你问啥是FF，其实就是For 4.0，在API和功能上保持不变，只是让其支持了Luc...

2015-07-31 14:29:28 5274 1

原创《图论》——深度优先搜索算法(DFS)

十大算法之广度优先遍历：深度优先搜索遍历类似于树的先序遍历。假定给定图G的初态是所有顶点均未被访问过，在G中任选一个顶点i作为遍历的初始点，则深度优先搜索递归调用包含以下操作：（1）访问搜索到的未被访问的邻接点；（2）将此顶点的visited数组元素值置1；（3）搜索该顶点的未被访问的邻接点，若该邻接点存在，则从此邻接点开始进行同样的访问和搜索。深度优先搜索DFS可...

2015-07-31 09:55:35 3584

原创四、伪分布下安装hive1.2

声明：本篇blog并没有配置MySQL，元数据库为derby如需配置mysql请点击：http://blog.csdn.net/gamer_gyt/article/details/47776369一、环境Ubuntu14.04hadoop2.6伪分布（安装教程请参考：点击打开链接）hive-1.2.1（下载链接：点击打开链接）二、安装1、将其下载的安装包解压到相应的目录...

2015-07-30 15:57:36 5582 3

原创《图论》——广度优先遍历算法(BFS)

十大算法之广度优先遍历：本文以实例形式讲述了基于Java的图的广度优先遍历算法实现方法，具体方法如下：用邻接矩阵存储图方法：1.确定图的顶点个数和边的个数2.输入顶点信息存储在一维数组vet中3.初始化邻接矩阵；4.依次输入每条边存储在邻接矩阵array中输入边依附的两个顶点的序号i,j；将邻接矩阵的第i行第j列的元素值置为1；将邻接矩阵的第j行第i列的元素值置为1...

2015-07-30 11:57:15 4115 2

原创《排序算法》——堆排序（大顶堆，小顶堆，Java）

十大算法之堆排序：堆的定义如下：　　n个元素的序列{k0,k1,...,ki,…,k(n-1)}当且仅当满足下关系时，称之为堆。　　" ki<=k2i,ki<=k2i+1;或ki>=k2i,ki>=k2i+1.（i=1,2,…,[n/2])"　　若将和此次序列对应的一维数组（即以一维数组作此序列的存储结构）看成是一个完全二叉树，　　则完全二叉树中每一个节...

2015-07-30 09:12:54 4425

原创 hbase shell 基本操作命令

具体的hbase shell 命令如下表所示：查看hbase 的状态： status查看hbase 的版本： version创建scores表： create ‘scores’，‘grad’,'course'查看当前hbase 中有哪些表： ...

2015-07-29 18:26:59 3121

原创三、伪分布环境下安装hbase

环境说明： 1、hadoop2.6伪分布安装：具体请参考博主的一篇文章：http://blog.csdn.net/gamer_gyt/article/details/46793731 2、Ubuntu14.04 3、hbase-0.98.13-hadoop2-bin，hbase下载链接：http://apache.mirrors.tds.net/hbase/安装配...

2015-07-29 14:17:05 2780

原创线性查找算法

十大算法之线性查找：介绍：BFPRT算法解决的问题十分经典，即从某n个元素的序列中选出第k大（第k小）的元素，通过巧妙的分析，BFPRT可以保证在最坏情况下仍为线性时间复杂度。该算法的思想与快速排序思想相似，当然，为使得算法在最坏情况下，依然能达到o(n)的时间复杂度，五位算法作者做了精妙的处理。时间复杂度O(N)算法步骤：1.将n个元素每5个一组，...

2015-07-29 12:25:47 4286

原创二分查找算法

十大算法之二分查找：二分查找算法是在有序数组中用到的较为频繁的一种算法，在未接触二分查找算法时，最通用的一种做法是，对数组进行遍历，跟每个元素进行比较，其时间为O(n).但二分查找算法则更优，因为其查找时间为O(lgn)，譬如数组{1， 2， 3， 4， 5， 6， 7， 8， 9}，查找元素6，用二分查找的算法执行的话，其顺序为： 1.第一步查找中间元素，即5，由于5<6，则6必...

2015-07-29 10:44:54 3077 2

原创《排序算法》——快速排序（Java）

十大算法之快速排序：方法其实很简单：分别从初始序列“6 1 2 7 9 3 4 5 10 8”两端开始“探测”。先从右往左找一个小于6的数，再从左往右找一个大于6的数，然后交换他们。这里可以用两个变量i和j，分别指向序列最左边和最右边。我们为这两个变量起个好听的名字“哨兵i”和“哨兵j”。刚开始的时候让哨兵i指向序列的最左边（即i=1），指向数字6。让哨兵j指向序列的最右边...

2015-07-29 09:44:28 2436

原创搜索引擎：MapReduce实战----倒排索引

1.倒排索引简介倒排索引（Inverted index），也常被称为反向索引、置入档案或反向档案，是一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。有两种不同的反向索引形式：一条记录的水平反向索引（或者反向档案索引）包含每个引用单词的文档的列表。一个单词的水平反向索引（或者完全反向索引）又包含每个单词在一个文...

2015-07-28 10:23:59 4783 1

我们知道，MapReduce是分为Mapper任务和Reducer任务，Mapper任务的输出，通过网络传输到Reducer任务端，作为输入。在Reducer任务中，通常做的事情是对数据进行归约处理。既然数据来源是Mapper任务的输出，那么是否可以在Mapper端对数据进行归约处理，业务逻辑与Reducer端做的完全相同。处理后的数据再传送到Reducer端，再做一次归约。这样的好处是减少了...

2015-07-28 09:06:41 3055

原创 hadoop命令——hdfs

hdfs是hadoop大体系下的分布式文件管理系统，是英文Hadoop Distributed File System的简写，其常用命令如下：一：fs命令（和Linux终端运行命令一致，也是hdfs最常用命令）二：其他相关命令1、hadoop 归档文件shell：hadoop archive -archiveName file.har -p /gyt/input /gyt/out...

2015-07-11 17:11:32 2637

原创 VirtualBox 虚拟Ubuntu系统与主机互ping

互ping的前提是主机和虚拟机的ip地址在同一波段【eg:主机为：192.168.1.10虚拟Linux：192.168.1.11】1、设置主机ip：打开网络共享中心->更改适配器设置->以太网，修改其ip在主机上运行CMD输...

2015-07-08 23:04:18 5944

原创 linux 环境下通过ifconfig命令配置ip地址

Linux下网卡命名规律：eth0，eth1。第一块以太网卡，第二块。lo为环回接口，它的IP地址固定为127.0.0.1，掩码8位。它代表你的机器本身。ifconfig [Interface] 是查看网卡的信息，如果不加参数查看的是所有的网卡信息加上参数eth0的话是查看eth0网卡的信息网卡信息的一些解释：第一行：连接类...

2015-07-08 12:31:26 5562

原创二、hadoop伪分布搭建

环境虚拟机：VirtualBoxUbuntu:14.04hadoop:2.6安装 1、创建hadoop用户sudo useradd -m hadoop -s/bin/bash【Ubun...

2015-07-07 20:14:49 7136 3

原创 MySQLdb的安装与使用

一、安装安装已编译版本(此方法简便快捷):http://www.codegood.com/downloads根据自己系统下载，双击安装，搞定然后import MySQLdb，查看是否成功我的，win7,32位，2.7版本MySQL-python-1.2.3.win-amd32-py2.7.exe二、使用#!/usr/bin/python# encoding...

2015-07-05 11:44:08 3228

grafana-6.3.3-1 rpm安装包.zip

grafana-6.3.3-1.x86_64.rpm 安装包，

2020-04-09

word2vec.zip

word2vec 官方资源未修改版和malloc函数替换版，官方源码需要科学上网才能获取，这里进行提供，同时mac os系统下需要修改malloc函数方可使用，这里也提供一份修改后的

2019-11-13

NLP汉语自然语言处理原理与实战

自然语言处理大体是从1950年代开始，虽然更早期也有作为。1950年，图灵发表论文“计算机器与智能”，提出现在所谓的“图灵测试”作为判断智能的条件。 1954年的乔治城实验涉及全部自动翻译超过60句俄文成为英文。研究人员声称三到五年之内即可解决机器翻译的问题。[1]不过实际进展远低于预期，1966年的ALPAC报告发现十年研究未达预期目标，机器翻译的研究经费遭到大幅削减。一直到1980年代末期，统计机器翻译系统发展出来，机器翻译的研究才得以更上一层楼。 1960年代发展特别成功的NLP系统包括SHRDLU——一个词汇设限、运作于受限如“积木世界”的一种自然语言系统，以及1964-1966年约瑟夫·维森鲍姆模拟“个人中心治疗”而设计的ELIZA——几乎未运用人类思想和感情的讯息，有时候却能呈现令人讶异地类似人之间的互动。“病人”提出的问题超出ELIZA 极小的知识范围之时，可能会得到空泛的回答。例如问题是“我的头痛”，回答是“为什么说你头痛？

2018-06-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Thinkgamer博客

原创 IK Analyzer 和 lucene结合使用

原创《图论》——深度优先搜索算法(DFS)

原创四、伪分布下安装hive1.2

原创《图论》——广度优先遍历算法(BFS)

原创《排序算法》——堆排序（大顶堆，小顶堆，Java）

原创 hbase shell 基本操作命令

原创三、伪分布环境下安装hbase

原创线性查找算法

原创二分查找算法

原创《排序算法》——快速排序（Java）

原创搜索引擎：MapReduce实战----倒排索引

原创 MapReducer中的多次归约处理

原创 hadoop命令——hdfs

原创 VirtualBox 虚拟Ubuntu系统与主机互ping

原创 linux 环境下通过ifconfig命令配置ip地址

原创二、hadoop伪分布搭建

原创 MySQLdb的安装与使用

grafana-6.3.3-1 rpm安装包.zip

word2vec.zip

NLP汉语自然语言处理原理与实战

一种人脸表情分类的新方法_Manhattan距离

gephi-0.9.1-windows.exe

mysql-connector-java-5.0.4-bin.jar

commons-el-1.0.jar，jasper-compiler.jar，jasper-runtime.jar

delicious.dat

kosarak.dat

从疝气病症预测病马的死亡率的测试数据集

从疝气病症预测病马的死亡率的训练数据集

hadoop-eclipse-plugin-2.6.0.jar

lucene4.3.0+IK Analyzer2012FF

IKAnalyzer_all_jar

十大算法之线性查找算法

高精度的加减乘除

securboot未完全配置消除补丁

空空如也