- 博客(11)
- 资源 (20)
- 收藏
- 关注
原创 《hadoop实战》笔记2
编写MapReduce基础程序MapReduce程序框架计数统计的MapReduce基础程序支持用脚本语言编写MapReduce程序的Hadoop流式API用于提升性能的Combiner高阶MapReduce编程实战细则手册管理Hadoop
2014-02-15 15:28:52 1507
原创 《hadoop实战》笔记1—分布式编程框架
1. hadoop作为一个数据处理框架,由于大数据量的移动很困难,hadoop采用的机制为将代码发送到集群环境中去,因为集群中有数据和计算(运行)环境,即代码向集群迁移2. SQL处理结构化数据,hadoop针对文本这类非结构化数据;SQL数据库向上扩展(增加单台机性能)时成本高,hadoop向外扩展(增加多台一般商用机)hadoop用键/值对(MapReduce实现)代替SQL数据库
2014-02-14 22:20:06 1545
原创 一线和准一线城市比较知名的互联网公司
深圳互联网公司:腾讯、迅雷、芒果网、珍爱网、本地宝、深圳之窗、互联在线、黎明网络北京互联网公司:百度、搜狐、新浪、当当、优酷、搜房、焦点房地产、360奇虎、雅虎中国、新华网、中华网、和讯网、天极网、人民网、硅谷动力、中国万网、大洋网、榕树下、ChinaByte、中商网、慧聪网、中关村在线、IT168、拉手网、兰亭集势、凡客诚品、豆瓣网、58同城网、赶集网、去哪儿网、csdn、网易、有道
2014-02-08 13:33:23 3089
转载 国内第一篇详细讲解hadoop2的automatic HA+Federation+Yarn的教程
前言 hadoop是分布式系统,运行在linux之上,配置起来相对复杂。对于hadoop1,很多同学就因为不能搭建正确的运行环境,导致学习兴趣锐减。不过,我有免费的学习视频下载,请点击这里。hadoop2出来后,解决了hadoop1的几个固有缺陷,比如单点故障、资源利用率低、支持作业类型少等问题,结构发生了很大变化,是hadoop未来使用的一个趋势。当然,配置也更加复杂,网
2014-02-22 11:44:48 1029
原创 语音识别中的鸡尾酒会问题
概念“ 鸡尾酒会问题”(cocktail party problem)是在计算机语音识别领域的一个问题,当前语音识别技术已经可以以较高精度识别一个人所讲的话,但是当说话的人数为两人或者多人时,语音识别率就会极大的降低,这一难题被称为鸡尾酒会问题。解决方案斯坦福大学Andrew NG的机器学习公开课(ml-class.org)在第一章unsupervised learning那段
2014-02-18 11:43:38 7809
转载 Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
摘要:通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。编者按:HDFS和MapReduce是Hadoop的两大核心,除此之外Hbase、Hive这两个核心工具也随着Hadoop发展变得越来越重要。本文作者张震的博文《Thinking i
2014-02-18 09:53:45 2157
转载 中文分词工具Rwordseg
简介:Rwordseg 是一个R环境下的中文分词工具,使用rJava调用Java分词工具Ansj。Ansj 也是一个开源的 Java 中文分词工具,基于中科院的 ictclas 中文分词算法,采用隐马尔科夫模型(Hidden Markov Model, HMM)。作者孙健重写了一个Java版本,并且全部开源,使得 Ansi 可用于人名识别、地名识别、组织机构名识别、多级词性标注、关
2014-02-16 15:51:02 3926
转载 开源 Java 中文分词器 Ansj 作者孙健专访
Ansj 是一个开源的 Java 中文分词工具,基于中科院的 ictclas 中文分词算法,比其他常用的开源分词工具(如mmseg4j)的分词准确率更高。在线演示:http://ansj.sdapp.cn/demo/seg.jsp官网地址:http://www.ansj.org/Github地址:https://github.com/ansjsun/ansj_seg我们本期
2014-02-15 07:40:13 1582
转载 字符串匹配算法总结
我想说一句“我日,我讨厌KMP!”。KMP虽然经典,但是理解起来极其复杂,好不容易理解好了,便起码来巨麻烦!老子就是今天图书馆在写了几个小时才勉强写了一个有bug的、效率不高的KMP,特别是计算next数组的部分。其实,比KMP算法速度快的算法大把大把,而且理解起来更简单,为何非要抓住KMP呢?笔试出现字符串模式匹配时直接上sunday算法,既简单又高效,何乐而不为?说实话,想
2014-02-12 15:01:37 1049
转载 一位数据挖掘工程师眼中的“大数据与企业的数据化运营”
有一种说法,未来所有的行业都会被互联网改造,这种说法可能会有点绝对,但确实说明了一个趋势。前几天参加BDTC2013,看到了越来越多的原来在传统IT企业的同学和朋友纷纷加入移动互联网、大数据、云计算的阵营,越来越多的传统企业在众多IT巨头的忽悠之下开始投身大数据的浪潮。虽然很多老板对大数据的了解仅仅停留在Google搜索引擎或者Amazon的推荐系统这样的产品层面,但是大数据的浪潮显然已经不可阻挡
2014-02-12 11:33:12 1297
转载 Slope one—个性化推荐中最简洁的协同过滤算法
Slope One 是一系列应用于 协同过滤的算法的统称。由 Daniel Lemire和Anna Maclachlan于2005年发表的论文中提出。 [1]有争议的是,该算法堪称基于项目评价的non-trivial 协同过滤算法最简洁的形式。该系列算法的简洁特性使它们的实现简单而高效,而且其精确度与其它复杂费时的算法相比也不相上下。 [2]. 该系列算法也被用来改进其它算法。[3][4]
2014-02-10 15:03:31 6609
The Google file system(免积分下载)
2014-01-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人