2015年11月_搜索与推荐Wiki

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 01月

原创 MapReduce InputFormat——DBInputFormat

一、背景为了方便MapReduce直接访问关系型数据库（Mysql,Oracle），Hadoop提供了DBInputFormat和DBOutputFormat两个类。通过DBInputFormat类把数据库表数据读入到HDFS，根据DBOutputFormat类把MapReduce产生的结果集导入到数据库表中。二、技术细节1、DBInputFormat（Mys...

2015-11-30 10:38:01 2739

原创 MapReduce InputFormat之FileInputFormat

一：简单认识InputFormat类InputFormat主要用于描述输入数据的格式，提供了以下两个功能： 1）、数据切分，按照某个策略将输入数据且分成若干个split，以便确定Map Task的个数即Mapper的个数，在MapReduce框架中，一个split就意味着需要一个Map Task; 2)为Mapper提供输入数据，即给定一个spli...

2015-11-30 09:19:00 2490

原创沈阳东网科技和福建卓智网络面试心得

2015年11月25日迎来了人生的第一次面试，虽然是在电话中但还是有点紧张2015年11月27日第二面试，这一次所不同的是和面试官面对面展开讨论经过这两次面试现在做出以下总结：1：问题的展开从头到尾面试官所展开的一切问题都是紧紧围绕着你的简历展开的，所以对于简历尽量不要弄虚作假，如果说弄虚作假的话，一定要圆满，即对于简历上写的内容要做到九分了解，因为一旦你回答或者解释不了简历上的问题...

2015-11-29 18:46:42 5388

原创 HDFS学习笔记

1.1、数据块(block)HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件系统相同的是，HDFS中的文件是被分成64M一块的数据块存储的。不同于普通文件系统的是，HDFS中，如果一个文件小于一个数据块的大小，并不占用整个数据块存储空间。1.2、元数据节点(Namenode)和数据节点(datanode)元...

2015-11-29 18:25:51 2356

翻译关系型数据库的理解

1.关系型数据库简单的可以理解为二维数据库，表的格式就如Excel，有行有列。常用的关系数据库有Oracle，SqlServer，Informix，MySql，SyBase等。（也即是我们平时看到的数据库，都是关系型数据库）2.所谓关系型数据库，是指采用了关系模型来组织数据的数据库。关系模型是在1970年由IBM的研究员E.F.Codd博士首先提出，在之后的几十年中，关系模型的概念得到了充...

2015-11-26 19:43:50 4747

翻译 Yarn详解

问题导读：1、什么是yarn？2、Yarn 和MapReduce相比，它有什么特殊作用？背景Yarn是一个分布式的资源管理系统，用以提高分布式的集群环境下的资源利用率，这些资源包括内存、IO、网络、磁盘等。其产生的原因是为了解决原MapReduce框架的不足。最初MapReduce的committer们还可以周期性的在已有的代码上进行修改，可是随着代码的增加以...

2015-11-26 00:33:15 2805

翻译 HDFS Federation(HDFS 联邦)（Hadoop2.3）

最早接触Federation这个词还是第一家公司用的DB2联邦数据库。第一代HadoopHDFS：结构上由一个namenode和众多datanode组成。功能上划分为namespace和block storage service 两部分。所谓的HDFS Federation就是有多个namenode（或者说namespace）。如图：这里有blo...

2015-11-26 00:23:10 5438

原创 MapReduce编程实例之自定义排序

任务描述：给出一组数据，自定义排序的样式，第一列降序，相同时第二列升序example Data：2013 12013 52014 52014 82015 92015 4Code:package mrTest;import java.io.DataInput;import java.io.DataOutput;import java.io.IOExcep...

2015-11-25 23:30:59 2755

原创 MapReduce编程实例之自定义分区

任务描述：一组数据，按照年份的不同将其分别存放在不同的文件里example Data：2013 12013 52014 52014 82015 92015 4Code：package mrTest;import java.io.IOException;import java.util.StringTokenizer;import org.apache...

2015-11-25 21:54:03 4585

原创 MapReduce编程实践之自定义数据类型

一：任务描述自定义数据类型完成手机流量的分析二：example data格式为：记录报告时间戳、手机号码、AP mac、AC mac、访问的网址、网址种类、上行数据包数、下行数据包数、上行总流量、下行总流量、HTTP Response的状态。136315798506613726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82i02.c...

2015-11-24 18:51:50 3325

原创 Mapeduce编程八大步骤

Mapreduce编程八大步1.1:指定读取的文件位于哪里FileInputFormat.setInputPaths()指定如何对输入文件进行格式化，把输入文本每一行解析为键值对job.setInputFormatClass()1.2：指定自定义的Map类job.setMapperClass()//map输出的<k,v>类型，如果<k3,v3>的类型与&lt...

2015-11-24 16:54:37 2778

原创 MapReduce编程实例之数据去重

任务描述：让原始数据中出现次数超过一次的数据在输出文件中只出现一次。example data：2015-3-1 a2015-3-2 b2015-3-3 c2015-3-4 d2015-3-5 e2015-3-6 f2015-3-7 g2015-3-1 a2015-3-2 b2015-3-3 c2015-3-4 d2015-3-5 e2015-3-6 f2015...

2015-11-24 16:42:57 3123

原创 MapReduce编程实例之倒排索引

任务描述：有一批电话清单，记录了用户A拨打给用户B的记录做一个倒排索引，记录拨打给用户B所有的用户A、example data：13614004876 11018940084808 1008613342445911 1000113614004876 12018940084808 100861113342445911 11015847985621 10000code...

2015-11-24 15:59:40 3437

原创 00.Python manage.py shell和 Python的分析

环境：Python 2.7.6 django1.8.6IDE：Pycharm编写了一个模板，数据库连接的是MySQl数据库（具体配置参考http://blog.csdn.net/gamer_gyt/article/details/49976119）可是pycharm中启动服务的时候报错如下：................django.core.exceptions.Im...

2015-11-22 11:00:22 7298

翻译深刻理解Python中的元类(metaclass)

类也是对象在理解元类之前，你需要先掌握Python中的类。Python中类的概念借鉴于Smalltalk，这显得有些奇特。在大...

2015-11-15 15:16:33 3132

原创 javac / java 命令详解

javac是用来编译.java文件的。命令行下直接输入javac可以看到大量提示信息，提示javac命令的用法，我只知道常用的。javac -d destdir srcFile其中：1、-d destdir是用来指定存放编译生成的.class文件的路径。（若此选项省略，那么默认在当前目录下生成.class文件，并且没有生成包文件夹；当前目录可以用“.”来表示，即：javac -d ....

2015-11-14 23:24:51 2685

原创 hdfs之快照的学习

HDFS快照是文件系统的只读的实时的拷贝，可以是文件系统的一部分或者整个文件系统。快照的一些通用场景是数据备份，对用户错误的保护和灾难恢复。HDFS的快照实现是高效的：快照的创建时瞬间完成的，排除查找inode的时间，需要花费O(1)，即常数时间。只有执行与快照相关的修改时才需要额外的内存，内存开销为O(M)，M为修改的文件或者目录的数量。 DataNodes中的块不会被复制，快...

2015-11-14 17:19:44 3316

原创 Python 类属性的理解

一：类的属性包括1：实例属性2：类属性3：私有属性例子：(1)：以双下划线开头标志的字符classA:def__init__(self):self.__x=1definfo(self):printself.__xa=A()a.info()a.__x=2a.info()...

2015-11-13 17:09:09 2179

高精度的加减乘除

高精度对于初学者来说并不是容易的，所以小编在这里这里整理了高精度的加减乘除运算，在一个程序中实现，希望对各位童鞋有所帮助

2014-08-23

算法步骤： 1. 将n个元素每5个一组，分成n/5(上界)组。 2. 取出每一组的中位数，任意排序方法，比如插入排序。 3. 递归的调用selection算法查找上一步中所有中位数的中位数，设为x，偶数个中位数的情况下设定为选取中间小的一个。 4. 用x来分割数组，设小于等于x的个数为k，大于x的个数即为n-k。 5. 若i==k，返回x；若ik，在大于x的元素中递归查找第i-k小的元素。终止条件：n=1时，返回的即是i小元素。

2015-07-29

NLP汉语自然语言处理原理与实战

自然语言处理大体是从1950年代开始，虽然更早期也有作为。1950年，图灵发表论文“计算机器与智能”，提出现在所谓的“图灵测试”作为判断智能的条件。 1954年的乔治城实验涉及全部自动翻译超过60句俄文成为英文。研究人员声称三到五年之内即可解决机器翻译的问题。[1]不过实际进展远低于预期，1966年的ALPAC报告发现十年研究未达预期目标，机器翻译的研究经费遭到大幅削减。一直到1980年代末期，统计机器翻译系统发展出来，机器翻译的研究才得以更上一层楼。 1960年代发展特别成功的NLP系统包括SHRDLU——一个词汇设限、运作于受限如“积木世界”的一种自然语言系统，以及1964-1966年约瑟夫·维森鲍姆模拟“个人中心治疗”而设计的ELIZA——几乎未运用人类思想和感情的讯息，有时候却能呈现令人讶异地类似人之间的互动。“病人”提出的问题超出ELIZA 极小的知识范围之时，可能会得到空泛的回答。例如问题是“我的头痛”，回答是“为什么说你头痛？

2018-06-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Thinkgamer博客

原创 MapReduce InputFormat——DBInputFormat

原创 MapReduce InputFormat之FileInputFormat

原创沈阳东网科技和福建卓智网络面试心得

原创 HDFS学习笔记

翻译关系型数据库的理解

翻译 Yarn详解

翻译 HDFS Federation(HDFS 联邦)（Hadoop2.3）

原创 MapReduce编程实例之自定义排序

原创 MapReduce编程实例之自定义分区

原创 MapReduce编程实践之自定义数据类型

原创 Mapeduce编程八大步骤

原创 MapReduce编程实例之数据去重

原创 MapReduce编程实例之倒排索引

原创 00.Python manage.py shell和 Python的分析

翻译深刻理解Python中的元类(metaclass)

原创 javac / java 命令详解

原创 hdfs之快照的学习

原创 Python 类属性的理解

高精度的加减乘除

基于用户兴趣分类的协同过滤推荐算法

MySQL基本教程

十大算法之线性查找算法

NLP汉语自然语言处理原理与实战

commons-el-1.0.jar，jasper-compiler.jar，jasper-runtime.jar

从疝气病症预测病马的死亡率的测试数据集

kosarak.dat

grafana-6.3.3-1 rpm安装包.zip

word2vec.zip

delicious.dat

从疝气病症预测病马的死亡率的训练数据集

一种人脸表情分类的新方法_Manhattan距离

securboot未完全配置消除补丁

mysql-connector-java-5.0.4-bin.jar

gephi-0.9.1-windows.exe

IKAnalyzer_all_jar

hadoop-eclipse-plugin-2.6.0.jar

lucene4.3.0+IK Analyzer2012FF

空空如也