顾大静-CSDN博客

原创 Hadoop系列(8):数据存储之数据分区及放置策略

1、分区的定义及作用定义：将表、索引或索引编排细分为更小的段，数据库对象的每一个段称为区。作用：分区操作可以并行执行；分区之间相互独立，系统可用性高；查询操作可以仅查询部分分区而不是整个数据库。2、分区方式（1）范围分区范围分区：按照数据表中某个值得范围进行分区，根据值得范围决定数据所在分区。主要特点：能够根据数据的范围，将不同范围的数据存储在不同的分区。适用：按照时间范围存储数据的系统（日志）（...

2018-03-31 16:45:22 3167

原创学习整理

算法相关 1. 随机森林算法的优点及具体实现过程 https://blog.csdn.net/nieson2012/article/details/51279332 2. 随机森林和GBDT的区别。 https://blog.csdn.net/login_sonata/article/details/73929426 3. GBDT参数调优 https://www.cnblogs.com/...

2018-03-25 17:04:59 451

原创 Java Object相关

Object 类介绍 1. Java中唯一没有父类的类，Java中所有的类从根本上都继承自这个类。Object常见方法 1. public native int hashCode(); 该方法调用本地JNI返回该对象的内存地址。Object.hashCode的通用约定（摘自《Effective Java》第45页） 1. 在一个应用程序执行期...

2018-03-25 15:42:14 185

原创 Hadoop系列(7):数据存储之数据存储模型

数据存储模型1、关系模型主要以表的形式存储数据，表中每一行(row)为一个记录，每列都有名称和类型2、NoSQL模型：（1）键值对数据模型有一个特定的key和一个value指针，指向特定的数据。适用：通过key对数据进行查询和修改等操作不适用：侧重于批量查询、更新的海量存储系统，以及复杂逻辑操作优点：数据模型简单、易于实现缺点：由HashTable实...

2018-03-14 23:28:34 548

原创 Hadoop系列(6): MapReduce 与 Databases

1、传统数据库与MapReduce区别传统数据库：（1）可以处理多任务：分析类任务，事物(transactions)；批处理，交互式；（2）数据一致性通过ACID保证（原子性、一致性、隔离性、永久性）（3）许多数据报表工具支持（4）支持SQL语言（5）自动SQL查询优化MapReduce：（1）为大规模集群设计的，具有容错性；（2）数据以原始格式...

2018-03-07 23:27:09 223

原创 Hadoop系列(5):MapReduce实现PageRank

1、PageRank 原理(1) 算法定义：PageRank 算法输入：所有节点的初始权重值；节点邻接矩阵；迭代次数n输出：节点权重值while i < n: for x in nodelist: PR(x) = a + (1-a)*sum(PR(t)/C(t)) end forend i其中a为常数，一般取0.15。t为与指向x的所有节点(t->x),...

2018-03-07 22:31:40 956

原创 Hadoop系列(4):MapReduce实现倒排索引(Inverted Index)

1、倒排索引倒排索引常用于信息检索领域。图1展示了一个布尔检索的过程，即统计每个单词在哪些文档中出现过。当输入blue时，返回带有blue单词的所有文档编号。算法统计单词在哪些文档中出现，而不是统计文档中有哪些单词，是因为与文档数目相比，常用词表的数量小的多。 ...

2018-03-06 14:42:59 778 1

原创 Hadoop系列(3): MapReduce

1、MapReduce工作流程分析图 1 MapReduce 工作流程 MapReduce框架适用于大规模数据的并行计算，对于需要在不同机器间频繁同步的应用并不适用。保持节点间数据同步而产生的通信开销会使得系统效率低。MR框架也不...

2018-03-04 23:25:43 197

原创 Hadoop系列(2): Hadoop 1.x VS Hadoop 2.x

1、Hadoop 1.x 的局限性 (1) 扩展性集群最大节点数-4000；最大并发任务数40000； (2) 可用性 JobTracker负载较重，存在单点故障 (3）批处理模式，时效性低仅支持MapReduce一种计算方式 (4) 低效的资源管理资源强制划分为map task slot和reduce ...

2018-03-03 17:17:05 237

原创 Hadoop系列(1):HDFS原理

HDFS（Hadoop Distributed File System）原理1、分布式文件系统（1）为什么需要分布式文件系统？传统的文件系统最大的问题是容量和吞吐量的限制。多用户应用的并行读写是分布式文件系统产生的根源。2、HDFS设计目标基于廉价的普通硬件，可以容忍硬件出错；可以处理大数据集 HDFS的存储量可以达到PB，EB级别，适合存储单个大文件简单的一致性模型一次写...

2018-03-02 23:51:32 257

原创预测Hadoop Job最终执行时间

由于某项工作需要预测MapReduce Job最终执行结果，预测方法需要有Job提交时系统的一些特征，所以需要修改Hadoop源码，获取系统特征，重点修改了JobSubmitter.java。（1）获取系统中正在运行的Job数量，及Task数量 JobStatus jobStatus[] =cluster.getAllJobStatuses(); for(int i...

2017-01-06 11:04:18 863

原创 Mac下编译Hadoop2.6.0源码

1、环境搭建（1）Hadoop官网下载Hadoop2.6.0源码（hadoop-2.6.0-src.tar.gz） https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.6.0/ 解压缩命令：tar -xvzf hadoop-2.6.0-src.tar.gz （2）按照building.txt文件中的内容安装...

2017-01-06 10:28:25 1489

原创 Intellij idea Hadoop 开发

一、开发 1、Intellij idea hadoop 开发 https://my.oschina.net/zhangdengpan/blog/356641 注：第三步的配置项：（1）下载hadoop （2）打开File－>project structure->Modules 点击添加导入下载的hadoop->share文件夹下如下的包 2、E...

2016-11-26 11:55:28 706

原创 Mac下编写bash脚本并运行

1、编写bash脚本参考链接：http://blog.sina.com.cn/s/blog_43c625f10101f24j.html http://blog.csdn.net/hejinjing_tom_com/article/details/7398746注意：之前定义的变量a，后面如需要用引用，需要使用“$a”取值变量赋值不可以有空格！！a＝3，不可以a ＝ 32...

2016-11-22 23:32:35 8271

转载 centos 安装gdb

1.如有安装过先卸载gdb旧版本rpm -qa | grep gdbrpm -e --nodeps gdb-7.2-60.el6_4.1.i6862. 安装Texinfo文档系统yum install ncurses-devel 3. 下载gdb 7.6.1源码包http://ftp.gnu.org/gnu/gdb/gdb-7.6.1.tar.gz将源码包放在home目录的Download目录中4...

2015-06-16 20:30:39 8241

转载 centos6 程序中编译出现curses.h不存在问题

检查是否已经安装以下的辅助软件包　　[root@localhost ~]# rpm -q ncurses 　　ncurses-5.5-24. 　　[root@localhost ~]# rpm -q ncurses-devel 　　package ncurses-devel is not installed 提示ncurses...

2015-06-16 19:29:58 658

转载 CentOS下安装mysql

CentOS 5.5下安装mysql-5.0.27 　　下载mysql-5.0.27.tar.gz：　　　　解压：tar zxvf mysql-5.0.27.tar.gz 　　# cd mysql-5.0.27 　　# mkdir /program/mysql 　　---

2015-06-16 19:28:36 384

原创 win7下cygwin+hadoop+MyEclipse

1、启动cygwin服务 ssh localhost //进入hadoop安装目录，注意文件分布系统在与windows有区别。 cd /cygdrive/d/hadoop/run/bin2、启动hadoop ./start-all.sh 详细方法：http://lusterfly.iteye.com/blog/18139673、MyEclipse配置hadoop【Windo...

2015-02-07 16:33:01 443

原创 Cygwin重新配置ssh

1、卸载ssh net stop sshd cygrunsrv -E sshd cygrunsrv -R sshd 删除cygwin连接：http://ihacklog.com/post/how-to-uninstall-cygwin-totally.html2、重新配置ssh ssh-host-config 设置的 cyg_server密码要记清楚，在win的服...

2015-02-07 16:25:48 799

转载 Python实现网络爬虫

本人刚学Python不久，前段时间看到华南师范大学有一个网络爬虫的项目，特意研究了一下，用Python写了一个可以多线程下载的网络爬虫。其实网络爬虫的原理并不是太复杂，具体的一些东西可以参照百度百科的描述，在这里我就不再多说。我使用的网络爬虫下载网页的算法是广度搜索(BFS)，网络上对爬虫实现算法的评价中，广度搜索的算法是排行第二的，最好的算法是按网页重要性排序后再确定下载顺序（这

2015-01-01 18:51:15 672

原创 Python提交表单并处理返回结果

1、将本地文件内容批量提交到指定网址，并将结果保存到本地import urllib import urllib2import cookielibcj = cookielib.LWPCookieJar()opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))urllib2.install_opene

2014-12-29 23:06:27 1266

原创 oracle 函数、包的定义及使用

方法定义：CREATE OR REPLACE function insert_emp (v_EMPNO NUMBER,v_ENAME VARCHAR2,v_JOB VARCHAR2,v_MGR NUMBER,v_HIREDATE DATE,v_SAL NUMBER,v_COMM NUMBER,v_DEPTNO NUMBER)return NUMBERISBEGININS

2014-12-22 19:21:14 536

原创 oracle中建表、游标、存储过程的使用方法入门

step 1 ：建表 create table register ( --表只能为create，不能是create or replace id NUMBER(10) primary key, section VARCHAR2(20), register_date date DEFAULT sysdate--设置系统默认时间);step2：建立存储过程

2014-12-21 10:42:06 644

原创 win7+oracle搭建及图形化界面Navicat for Oracle的使用

oracle下载完毕之后，安装教程：http://wenku.baidu.com/link?url=KsgawLuRu_vKhqwNcuhWngKZGKhdpQ5C2FpCYZAxRkIC7F3iEjZS_hid-ghbj2p312j9PRbKFZLdO-2IWqxc8sLJkbOViaoQOGXjXRhsS-7sql plus写sql语句实在太痛苦，上网找了下发现有个Navicat for

2014-12-20 21:10:31 579

UDST