自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

UDST

凡事往简单处想,往认真处行。

  • 博客(24)
  • 资源 (4)
  • 收藏
  • 关注

原创 Hadoop系列(8):数据存储之数据分区及放置策略

1、分区的定义及作用定义:将表、索引或索引编排细分为更小的段,数据库对象的每一个段称为区。作用:分区操作可以并行执行;分区之间相互独立,系统可用性高;查询操作可以仅查询部分分区而不是整个数据库。2、分区方式(1)范围分区范围分区:按照数据表中某个值得范围进行分区,根据值得范围决定数据所在分区。主要特点:能够根据数据的范围,将不同范围的数据存储在不同的分区。适用:按照时间范围存储数据的系统(日志)(...

2018-03-31 16:45:22 3146

原创 学习整理

算法相关 1. 随机森林算法 的优点及具体实现过程 https://blog.csdn.net/nieson2012/article/details/51279332 2. 随机森林和GBDT的区别。 https://blog.csdn.net/login_sonata/article/details/73929426 3. GBDT参数调优 https://www.cnblogs.com/...

2018-03-25 17:04:59 441

原创 Java Object相关

Object 类介绍        1. Java中唯一没有父类的类,Java中所有的类从根本上都继承自这个类。Object常见方法        1. public native int hashCode();        该方法调用本地JNI返回该对象的内存地址。Object.hashCode的通用约定(摘自《Effective Java》第45页)        1. 在一个应用程序执行期...

2018-03-25 15:42:14 176

原创 Hadoop系列(7):数据存储之数据存储模型

数据存储模型1、关系模型    主要以表的形式存储数据,表中每一行(row)为一个记录,每列都有名称和类型2、NoSQL模型:(1)键值对数据模型    有一个特定的key和一个value指针,指向特定的数据。    适用:通过key对数据进行查询和修改等操作    不适用:侧重于批量查询、更新的海量存储系统,以及复杂逻辑操作    优点:数据模型简单、易于实现    缺点:由HashTable实...

2018-03-14 23:28:34 533

原创 Hadoop系列(6): MapReduce 与 Databases

1、传统数据库与MapReduce区别传统数据库:   (1)可以处理多任务:分析类任务,事物(transactions);批处理,交互式;    (2)数据一致性通过ACID保证(原子性、一致性、隔离性、永久性)    (3)许多数据报表工具支持    (4)支持SQL语言    (5)自动SQL查询优化MapReduce:   (1)为大规模集群设计的,具有容错性;    (2)数据以原始格式...

2018-03-07 23:27:09 211

原创 Hadoop系列(5):MapReduce实现PageRank

1、PageRank 原理(1) 算法定义:PageRank 算法输入:所有节点的初始权重值;节点邻接矩阵;迭代次数n输出:节点权重值while i <  n:    for x in nodelist:         PR(x) = a + (1-a)*sum(PR(t)/C(t))     end forend i其中a为常数,一般取0.15。t为与指向x的所有节点(t->x),...

2018-03-07 22:31:40 941

原创 Hadoop系列(4):MapReduce实现倒排索引(Inverted Index)

1、倒排索引    倒排索引常用于信息检索领域。图1展示了一个布尔检索的过程,即统计每个单词在哪些文档中出现过。当输入blue时,返回带有blue单词的所有文档编号。算法统计单词在哪些文档中出现,而不是统计文档中有哪些单词,是因为与文档数目相比,常用词表的数量小的多。                                                                  ...

2018-03-06 14:42:59 762 1

原创 Hadoop系列(3): MapReduce

1、MapReduce工作流程分析                                                                                  图 1 MapReduce 工作流程    MapReduce框架适用于大规模数据的并行计算,对于需要在不同机器间频繁同步的应用并不适用。保持节点间数据同步而产生的通信开销会使得系统效率低。MR框架也不...

2018-03-04 23:25:43 188

原创 Hadoop系列(2): Hadoop 1.x VS Hadoop 2.x

1、Hadoop 1.x 的局限性        (1) 扩展性        集群最大节点数-4000;最大并发任务数40000;    (2) 可用性        JobTracker负载较重,存在单点故障    (3)批处理模式,时效性低        仅支持MapReduce一种计算方式    (4) 低效的资源管理        资源强制划分为map task slot和reduce ...

2018-03-03 17:17:05 230

原创 Hadoop系列(1):HDFS原理

HDFS(Hadoop Distributed File System)原理1、分布式文件系统(1)为什么需要分布式文件系统?传统的文件系统最大的问题是容量和吞吐量的限制。多用户应用的并行读写是分布式文件系统产生的根源。2、HDFS设计目标基于廉价的普通硬件,可以容忍硬件出错;可以处理大数据集         HDFS的存储量可以达到PB,EB级别,适合存储单个大文件简单的一致性模型    一次写...

2018-03-02 23:51:32 249

原创 预测Hadoop Job最终执行时间

由于某项工作需要预测MapReduce Job最终执行结果,预测方法需要有Job提交时系统的一些特征,所以需要修改Hadoop源码,获取系统特征,重点修改了JobSubmitter.java。 (1)获取系统中正在运行的Job数量,及Task数量 JobStatus jobStatus[] =cluster.getAllJobStatuses(); for(int i...

2017-01-06 11:04:18 844

原创 Mac下编译Hadoop2.6.0源码

1、环境搭建 (1)Hadoop官网下载Hadoop2.6.0源码(hadoop-2.6.0-src.tar.gz) https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.6.0/ 解压缩命令:tar -xvzf hadoop-2.6.0-src.tar.gz (2)按照building.txt文件中的内容安装...

2017-01-06 10:28:25 1479

原创 Intellij idea Hadoop 开发

一、开发 1、Intellij idea hadoop 开发 https://my.oschina.net/zhangdengpan/blog/356641 注:第三步的配置项: (1)下载hadoop (2)打开File->project structure->Modules 点击添加 导入下载的hadoop->share文件夹下如下的包 2、E...

2016-11-26 11:55:28 688

原创 Mac下编写bash脚本并运行

1、编写bash脚本参考链接:http://blog.sina.com.cn/s/blog_43c625f10101f24j.html               http://blog.csdn.net/hejinjing_tom_com/article/details/7398746注意:之前定义的变量a,后面如需要用引用,需要使用“$a”取值变量赋值不可以有空格!!a=3,不可以a = 32...

2016-11-22 23:32:35 8252

转载 centos 安装gdb

1.如有安装过先卸载gdb旧版本rpm -qa | grep gdbrpm -e --nodeps gdb-7.2-60.el6_4.1.i6862. 安装Texinfo文档系统yum install ncurses-devel 3. 下载gdb 7.6.1源码包http://ftp.gnu.org/gnu/gdb/gdb-7.6.1.tar.gz将源码包放在home目录的Download目录中4...

2015-06-16 20:30:39 8224

转载 centos6 程序中编译出现curses.h不存在问题

   检查是否已经安装以下的辅助软件包          [root@localhost ~]# rpm -q ncurses          ncurses-5.5-24.          [root@localhost ~]#  rpm -q ncurses-devel          package ncurses-devel is not installed    提示ncurses...

2015-06-16 19:29:58 648

转载 CentOS下安装mysql

CentOS 5.5下安装mysql-5.0.27          下载mysql-5.0.27.tar.gz:                    解压:tar zxvf mysql-5.0.27.tar.gz          # cd mysql-5.0.27          # mkdir /program/mysql          ---     

2015-06-16 19:28:36 366

原创 win7下cygwin+hadoop+MyEclipse

1、启动cygwin服务    ssh localhost   //进入hadoop安装目录,注意文件分布系统在与windows有区别。   cd /cygdrive/d/hadoop/run/bin2、启动hadoop    ./start-all.sh   详细方法:http://lusterfly.iteye.com/blog/18139673、MyEclipse配置hadoop【Windo...

2015-02-07 16:33:01 435

原创 Cygwin重新配置ssh

1、卸载ssh    net stop sshd    cygrunsrv -E sshd    cygrunsrv -R sshd   删除cygwin连接 :http://ihacklog.com/post/how-to-uninstall-cygwin-totally.html2、重新配置ssh    ssh-host-config   设置的 cyg_server密码要记清楚,在win的服...

2015-02-07 16:25:48 783

转载 Python实现网络爬虫

本人刚学Python不久,前段时间看到华南师范大学有一个网络爬虫的项目,特意研究了一下,用Python写了一个可以多线程下载的网络爬虫。其实网络爬虫的原理并不是太复杂,具体的一些东西可以参照百度百科的描述,在这里我就不再多说。我使用的网络爬虫下载网页的算法是广度搜索(BFS),网络上对爬虫实现算法的评价中,广度搜索的算法是排行第二的,最好的算法是按网页重要性排序后再确定下载顺序(这

2015-01-01 18:51:15 664

原创 Python提交表单并处理返回结果

1、将本地文件内容批量提交到指定网址,并将结果保存到本地import urllib import urllib2import cookielibcj = cookielib.LWPCookieJar()opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))urllib2.install_opene

2014-12-29 23:06:27 1253

原创 oracle 函数、包的定义及使用

方法定义:CREATE OR REPLACE function insert_emp (v_EMPNO NUMBER,v_ENAME VARCHAR2,v_JOB VARCHAR2,v_MGR NUMBER,v_HIREDATE DATE,v_SAL NUMBER,v_COMM NUMBER,v_DEPTNO NUMBER)return NUMBERISBEGININS

2014-12-22 19:21:14 524

原创 oracle中建表、游标、存储过程的使用方法入门

step 1 :建表  create table register ( --表只能为create,不能是create or replace  id NUMBER(10) primary key,  section VARCHAR2(20),  register_date date DEFAULT sysdate--设置系统默认时间);step2: 建立存储过程 

2014-12-21 10:42:06 632

原创 win7+oracle搭建及图形化界面Navicat for Oracle的使用

oracle下载完毕之后,安装教程:http://wenku.baidu.com/link?url=KsgawLuRu_vKhqwNcuhWngKZGKhdpQ5C2FpCYZAxRkIC7F3iEjZS_hid-ghbj2p312j9PRbKFZLdO-2IWqxc8sLJkbOViaoQOGXjXRhsS-7sql plus写sql语句实在太痛苦,上网找了下发现有个Navicat for

2014-12-20 21:10:31 563

AlphaGoPPT

PPT以AlphaGo的论文为基础,介绍了AlphaGo的运行原理,内容涵盖了增加学习、深度神经网络部分知识。

2017-03-05

AlphaGo.pptx

2017-01-06

AlpaGoPPT.pptx

2016-12-06

多项式链表java源代码

输入多项式,通过java编程实现,多项式的计算

2013-05-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除