自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (20)
  • 收藏
  • 关注

原创 《hadoop实战》笔记2

编写MapReduce基础程序MapReduce程序框架计数统计的MapReduce基础程序支持用脚本语言编写MapReduce程序的Hadoop流式API用于提升性能的Combiner高阶MapReduce编程实战细则手册管理Hadoop

2014-02-15 15:28:52 1506

原创 《hadoop实战》笔记1—分布式编程框架

1. hadoop作为一个数据处理框架,由于大数据量的移动很困难,hadoop采用的机制为将代码发送到集群环境中去,因为集群中有数据和计算(运行)环境,即代码向集群迁移2. SQL处理结构化数据,hadoop针对文本这类非结构化数据;SQL数据库向上扩展(增加单台机性能)时成本高,hadoop向外扩展(增加多台一般商用机)hadoop用键/值对(MapReduce实现)代替SQL数据库

2014-02-14 22:20:06 1545

原创 一线和准一线城市比较知名的互联网公司

深圳互联网公司:腾讯、迅雷、芒果网、珍爱网、本地宝、深圳之窗、互联在线、黎明网络北京互联网公司:百度、搜狐、新浪、当当、优酷、搜房、焦点房地产、360奇虎、雅虎中国、新华网、中华网、和讯网、天极网、人民网、硅谷动力、中国万网、大洋网、榕树下、ChinaByte、中商网、慧聪网、中关村在线、IT168、拉手网、兰亭集势、凡客诚品、豆瓣网、58同城网、赶集网、去哪儿网、csdn、网易、有道

2014-02-08 13:33:23 3087

转载 国内第一篇详细讲解hadoop2的automatic HA+Federation+Yarn的教程

前言 hadoop是分布式系统,运行在linux之上,配置起来相对复杂。对于hadoop1,很多同学就因为不能搭建正确的运行环境,导致学习兴趣锐减。不过,我有免费的学习视频下载,请点击这里。hadoop2出来后,解决了hadoop1的几个固有缺陷,比如单点故障、资源利用率低、支持作业类型少等问题,结构发生了很大变化,是hadoop未来使用的一个趋势。当然,配置也更加复杂,网

2014-02-22 11:44:48 1029

原创 语音识别中的鸡尾酒会问题

概念“ 鸡尾酒会问题”(cocktail party problem)是在计算机语音识别领域的一个问题,当前语音识别技术已经可以以较高精度识别一个人所讲的话,但是当说话的人数为两人或者多人时,语音识别率就会极大的降低,这一难题被称为鸡尾酒会问题。解决方案斯坦福大学Andrew NG的机器学习公开课(ml-class.org)在第一章unsupervised learning那段

2014-02-18 11:43:38 7809

转载 Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解

摘要:通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。编者按:HDFS和MapReduce是Hadoop的两大核心,除此之外Hbase、Hive这两个核心工具也随着Hadoop发展变得越来越重要。本文作者张震的博文《Thinking i

2014-02-18 09:53:45 2157

转载 中文分词工具Rwordseg

简介:Rwordseg 是一个R环境下的中文分词工具,使用rJava调用Java分词工具Ansj。Ansj 也是一个开源的 Java 中文分词工具,基于中科院的 ictclas 中文分词算法,采用隐马尔科夫模型(Hidden Markov Model, HMM)。作者孙健重写了一个Java版本,并且全部开源,使得 Ansi 可用于人名识别、地名识别、组织机构名识别、多级词性标注、关

2014-02-16 15:51:02 3926

转载 开源 Java 中文分词器 Ansj 作者孙健专访

Ansj 是一个开源的 Java 中文分词工具,基于中科院的 ictclas 中文分词算法,比其他常用的开源分词工具(如mmseg4j)的分词准确率更高。在线演示:http://ansj.sdapp.cn/demo/seg.jsp官网地址:http://www.ansj.org/Github地址:https://github.com/ansjsun/ansj_seg我们本期

2014-02-15 07:40:13 1581

转载 字符串匹配算法总结

我想说一句“我日,我讨厌KMP!”。KMP虽然经典,但是理解起来极其复杂,好不容易理解好了,便起码来巨麻烦!老子就是今天图书馆在写了几个小时才勉强写了一个有bug的、效率不高的KMP,特别是计算next数组的部分。其实,比KMP算法速度快的算法大把大把,而且理解起来更简单,为何非要抓住KMP呢?笔试出现字符串模式匹配时直接上sunday算法,既简单又高效,何乐而不为?说实话,想

2014-02-12 15:01:37 1048

转载 一位数据挖掘工程师眼中的“大数据与企业的数据化运营”

有一种说法,未来所有的行业都会被互联网改造,这种说法可能会有点绝对,但确实说明了一个趋势。前几天参加BDTC2013,看到了越来越多的原来在传统IT企业的同学和朋友纷纷加入移动互联网、大数据、云计算的阵营,越来越多的传统企业在众多IT巨头的忽悠之下开始投身大数据的浪潮。虽然很多老板对大数据的了解仅仅停留在Google搜索引擎或者Amazon的推荐系统这样的产品层面,但是大数据的浪潮显然已经不可阻挡

2014-02-12 11:33:12 1297

转载 Slope one—个性化推荐中最简洁的协同过滤算法

Slope One 是一系列应用于 协同过滤的算法的统称。由 Daniel Lemire和Anna Maclachlan于2005年发表的论文中提出。 [1]有争议的是,该算法堪称基于项目评价的non-trivial 协同过滤算法最简洁的形式。该系列算法的简洁特性使它们的实现简单而高效,而且其精确度与其它复杂费时的算法相比也不相上下。 [2]. 该系列算法也被用来改进其它算法。[3][4]

2014-02-10 15:03:31 6609

The Google file system(免积分下载)

The Google file system,一个分布式文件系统,隐藏下层负载均衡,冗余复制等细节,对上层程序提供一个统一的文件系统API接口

2014-01-04

CentOS下Hadoop-0.20.2集群配置文档 免积分下载

CentOS下Hadoop-0.20.2集群配置文档 免积分下载

2013-12-05

HMM最佳学习范例

遇到这一篇文档之前没有碰到过能把“隐马尔科夫模型”讲的这么清晰透彻的,HMM学习最佳范例做到了

2013-11-18

集体智慧编程(源代码)

集体智慧编程书中所有章节的源代码,请注意代码为Python编写!

2013-11-03

新浪微博数据集

一个新浪新浪微博内容数据集的压缩包,进行数据挖掘分析只用。

2013-10-30

自学Matlab必备的60个程序代码

matlab自学必备利器,这些源代码看懂用自己实践一遍之后,以后上手其他的就容易多了!

2012-10-28

matlab在矩阵中的应用

matlab最强大的地方就是对矩阵的运算能力强,课件对这一强大基本的功能做了基础的介绍!

2012-10-28

matlab基础课件

对matlab的使用做了一些基础性的介绍,看完之后基本上算是入门了!

2012-10-28

《MATLAB程序设计教程》源代码

对matlab的使用做了一下入门性的介绍,并包含大部分常用的源代码!

2012-10-28

visio 2007指南

这是微软发布的官方visio指南,清新简洁,pdf的,一共37页,几个小时就能把visio搞的差不多。

2012-08-23

visio教程(pdf版)

visio教程,完整清新pdf版呈上,基本上可以在短时间内快速掌握visio基本技能!

2012-08-23

现代无线通信

西蒙 赫金的现代无线通信的中文版,经典程度就不解释了

2012-08-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除