- 博客(24)
- 资源 (4)
- 收藏
- 关注
原创 Hadoop系列(8):数据存储之数据分区及放置策略
1、分区的定义及作用定义:将表、索引或索引编排细分为更小的段,数据库对象的每一个段称为区。作用:分区操作可以并行执行;分区之间相互独立,系统可用性高;查询操作可以仅查询部分分区而不是整个数据库。2、分区方式(1)范围分区范围分区:按照数据表中某个值得范围进行分区,根据值得范围决定数据所在分区。主要特点:能够根据数据的范围,将不同范围的数据存储在不同的分区。适用:按照时间范围存储数据的系统(日志)(...
2018-03-31 16:45:22 3167
原创 学习整理
算法相关 1. 随机森林算法 的优点及具体实现过程 https://blog.csdn.net/nieson2012/article/details/51279332 2. 随机森林和GBDT的区别。 https://blog.csdn.net/login_sonata/article/details/73929426 3. GBDT参数调优 https://www.cnblogs.com/...
2018-03-25 17:04:59 451
原创 Java Object相关
Object 类介绍 1. Java中唯一没有父类的类,Java中所有的类从根本上都继承自这个类。Object常见方法 1. public native int hashCode(); 该方法调用本地JNI返回该对象的内存地址。Object.hashCode的通用约定(摘自《Effective Java》第45页) 1. 在一个应用程序执行期...
2018-03-25 15:42:14 185
原创 Hadoop系列(7):数据存储之数据存储模型
数据存储模型1、关系模型 主要以表的形式存储数据,表中每一行(row)为一个记录,每列都有名称和类型2、NoSQL模型:(1)键值对数据模型 有一个特定的key和一个value指针,指向特定的数据。 适用:通过key对数据进行查询和修改等操作 不适用:侧重于批量查询、更新的海量存储系统,以及复杂逻辑操作 优点:数据模型简单、易于实现 缺点:由HashTable实...
2018-03-14 23:28:34 548
原创 Hadoop系列(6): MapReduce 与 Databases
1、传统数据库与MapReduce区别传统数据库: (1)可以处理多任务:分析类任务,事物(transactions);批处理,交互式; (2)数据一致性通过ACID保证(原子性、一致性、隔离性、永久性) (3)许多数据报表工具支持 (4)支持SQL语言 (5)自动SQL查询优化MapReduce: (1)为大规模集群设计的,具有容错性; (2)数据以原始格式...
2018-03-07 23:27:09 223
原创 Hadoop系列(5):MapReduce实现PageRank
1、PageRank 原理(1) 算法定义:PageRank 算法输入:所有节点的初始权重值;节点邻接矩阵;迭代次数n输出:节点权重值while i < n: for x in nodelist: PR(x) = a + (1-a)*sum(PR(t)/C(t)) end forend i其中a为常数,一般取0.15。t为与指向x的所有节点(t->x),...
2018-03-07 22:31:40 956
原创 Hadoop系列(4):MapReduce实现倒排索引(Inverted Index)
1、倒排索引 倒排索引常用于信息检索领域。图1展示了一个布尔检索的过程,即统计每个单词在哪些文档中出现过。当输入blue时,返回带有blue单词的所有文档编号。算法统计单词在哪些文档中出现,而不是统计文档中有哪些单词,是因为与文档数目相比,常用词表的数量小的多。 ...
2018-03-06 14:42:59 778 1
原创 Hadoop系列(3): MapReduce
1、MapReduce工作流程分析 图 1 MapReduce 工作流程 MapReduce框架适用于大规模数据的并行计算,对于需要在不同机器间频繁同步的应用并不适用。保持节点间数据同步而产生的通信开销会使得系统效率低。MR框架也不...
2018-03-04 23:25:43 197
原创 Hadoop系列(2): Hadoop 1.x VS Hadoop 2.x
1、Hadoop 1.x 的局限性 (1) 扩展性 集群最大节点数-4000;最大并发任务数40000; (2) 可用性 JobTracker负载较重,存在单点故障 (3)批处理模式,时效性低 仅支持MapReduce一种计算方式 (4) 低效的资源管理 资源强制划分为map task slot和reduce ...
2018-03-03 17:17:05 237
原创 Hadoop系列(1):HDFS原理
HDFS(Hadoop Distributed File System)原理1、分布式文件系统(1)为什么需要分布式文件系统?传统的文件系统最大的问题是容量和吞吐量的限制。多用户应用的并行读写是分布式文件系统产生的根源。2、HDFS设计目标基于廉价的普通硬件,可以容忍硬件出错;可以处理大数据集 HDFS的存储量可以达到PB,EB级别,适合存储单个大文件简单的一致性模型 一次写...
2018-03-02 23:51:32 257
原创 预测Hadoop Job最终执行时间
由于某项工作需要预测MapReduce Job最终执行结果,预测方法需要有Job提交时系统的一些特征,所以需要修改Hadoop源码,获取系统特征,重点修改了JobSubmitter.java。 (1)获取系统中正在运行的Job数量,及Task数量 JobStatus jobStatus[] =cluster.getAllJobStatuses(); for(int i...
2017-01-06 11:04:18 863
原创 Mac下编译Hadoop2.6.0源码
1、环境搭建 (1)Hadoop官网下载Hadoop2.6.0源码(hadoop-2.6.0-src.tar.gz) https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.6.0/ 解压缩命令:tar -xvzf hadoop-2.6.0-src.tar.gz (2)按照building.txt文件中的内容安装...
2017-01-06 10:28:25 1489
原创 Intellij idea Hadoop 开发
一、开发 1、Intellij idea hadoop 开发 https://my.oschina.net/zhangdengpan/blog/356641 注:第三步的配置项: (1)下载hadoop (2)打开File->project structure->Modules 点击添加 导入下载的hadoop->share文件夹下如下的包 2、E...
2016-11-26 11:55:28 706
原创 Mac下编写bash脚本并运行
1、编写bash脚本参考链接:http://blog.sina.com.cn/s/blog_43c625f10101f24j.html http://blog.csdn.net/hejinjing_tom_com/article/details/7398746注意:之前定义的变量a,后面如需要用引用,需要使用“$a”取值变量赋值不可以有空格!!a=3,不可以a = 32...
2016-11-22 23:32:35 8271
转载 centos 安装gdb
1.如有安装过先卸载gdb旧版本rpm -qa | grep gdbrpm -e --nodeps gdb-7.2-60.el6_4.1.i6862. 安装Texinfo文档系统yum install ncurses-devel 3. 下载gdb 7.6.1源码包http://ftp.gnu.org/gnu/gdb/gdb-7.6.1.tar.gz将源码包放在home目录的Download目录中4...
2015-06-16 20:30:39 8241
转载 centos6 程序中编译出现curses.h不存在问题
检查是否已经安装以下的辅助软件包 [root@localhost ~]# rpm -q ncurses ncurses-5.5-24. [root@localhost ~]# rpm -q ncurses-devel package ncurses-devel is not installed 提示ncurses...
2015-06-16 19:29:58 658
转载 CentOS下安装mysql
CentOS 5.5下安装mysql-5.0.27 下载mysql-5.0.27.tar.gz: 解压:tar zxvf mysql-5.0.27.tar.gz # cd mysql-5.0.27 # mkdir /program/mysql ---
2015-06-16 19:28:36 384
原创 win7下cygwin+hadoop+MyEclipse
1、启动cygwin服务 ssh localhost //进入hadoop安装目录,注意文件分布系统在与windows有区别。 cd /cygdrive/d/hadoop/run/bin2、启动hadoop ./start-all.sh 详细方法:http://lusterfly.iteye.com/blog/18139673、MyEclipse配置hadoop【Windo...
2015-02-07 16:33:01 443
原创 Cygwin重新配置ssh
1、卸载ssh net stop sshd cygrunsrv -E sshd cygrunsrv -R sshd 删除cygwin连接 :http://ihacklog.com/post/how-to-uninstall-cygwin-totally.html2、重新配置ssh ssh-host-config 设置的 cyg_server密码要记清楚,在win的服...
2015-02-07 16:25:48 799
转载 Python实现网络爬虫
本人刚学Python不久,前段时间看到华南师范大学有一个网络爬虫的项目,特意研究了一下,用Python写了一个可以多线程下载的网络爬虫。其实网络爬虫的原理并不是太复杂,具体的一些东西可以参照百度百科的描述,在这里我就不再多说。我使用的网络爬虫下载网页的算法是广度搜索(BFS),网络上对爬虫实现算法的评价中,广度搜索的算法是排行第二的,最好的算法是按网页重要性排序后再确定下载顺序(这
2015-01-01 18:51:15 672
原创 Python提交表单并处理返回结果
1、将本地文件内容批量提交到指定网址,并将结果保存到本地import urllib import urllib2import cookielibcj = cookielib.LWPCookieJar()opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))urllib2.install_opene
2014-12-29 23:06:27 1266
原创 oracle 函数、包的定义及使用
方法定义:CREATE OR REPLACE function insert_emp (v_EMPNO NUMBER,v_ENAME VARCHAR2,v_JOB VARCHAR2,v_MGR NUMBER,v_HIREDATE DATE,v_SAL NUMBER,v_COMM NUMBER,v_DEPTNO NUMBER)return NUMBERISBEGININS
2014-12-22 19:21:14 536
原创 oracle中建表、游标、存储过程的使用方法入门
step 1 :建表 create table register ( --表只能为create,不能是create or replace id NUMBER(10) primary key, section VARCHAR2(20), register_date date DEFAULT sysdate--设置系统默认时间);step2: 建立存储过程
2014-12-21 10:42:06 644
原创 win7+oracle搭建及图形化界面Navicat for Oracle的使用
oracle下载完毕之后,安装教程:http://wenku.baidu.com/link?url=KsgawLuRu_vKhqwNcuhWngKZGKhdpQ5C2FpCYZAxRkIC7F3iEjZS_hid-ghbj2p312j9PRbKFZLdO-2IWqxc8sLJkbOViaoQOGXjXRhsS-7sql plus写sql语句实在太痛苦,上网找了下发现有个Navicat for
2014-12-20 21:10:31 579
AlphaGo.pptx
2017-01-06
AlpaGoPPT.pptx
2016-12-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人