威大爷

Whatever you do,do not let go!

排序:
默认
按更新时间
按访问量

大数据学习笔记(四)-构建全文搜索引擎

完整代码在这 对于搜索引擎,我们几乎每天都要用到,这个也是集体智慧算法中最重要的算法之一。其中Google的pagerank算法是引领搜索引擎前进的一大重要算法。当然,这儿学习的是小数据搜索。 1.获取数据,建立索引 这儿用的是sqlite数据库,因为它轻量。没有c/s架构,直接可以...

2018-05-03 16:03:43

阅读数:603

评论数:0

Centos 配置本地yum源

一.准备1.一个centos的源的iso镜像文件,最好是everything。我自己用的是CentOS-7-x86_64-Everything-1611.iso 2.需要在vmvare上添加上这块镜像文件 二,挂载并配置yum源1.在做好准备工作后,在/etc目录下应该会有一个cdrom的文件...

2017-09-02 10:39:18

阅读数:271

评论数:0

Hadoop HA的安装配置

一,HA的架构Hadoop HA 即Hadoop的高可用,不同于普通的namenode+second namenode的模式,second namenode只能作为namenode的冷备份,当namenode挂掉后,second namenode不能自动充当namenode的角色。所以为了保证高可...

2017-08-29 15:27:35

阅读数:728

评论数:0

zookeeper-3.4.6的安装和简单使用

一,zookeeper简介 zookeeper主要为分布式程序提供协调服务的,解决一致性等问题。如分布式中的高可用中的主节点的选择,CS架构中,有多台服务器,客户端对服务器的选择等应用场景。 zookeeper的主要角色是leader和follower,一个时间,只有一个leader,其余节...

2017-08-28 12:13:27

阅读数:1815

评论数:0

基于hadoop2.6.0的hive-1.2.1安装

1.安装环境:有一个完全分布式的Hadoop-2.6.0。2.安装准备:需要在网上下一个Hive的压缩包,我这儿用的是apache-hive-1.2.1-bin.tar.gz。下载地址here3.将下载下来的hive压缩包解压,并更改用户权限。我的解压在/usr/localsudo tar -zx...

2017-03-31 10:09:31

阅读数:546

评论数:0

基于hadoop-2.6.0的hbase完全分布式安装

1.安装环境:有一个完全分布式的hadoop-2.6.0。 2.安装准备:需要在网上下一个hbase的压缩包,我这儿用的是hbase-1.0.3-bin.tar.gz,下载地址here 3.解压下载好的hbase到一个目录下,并更改用户及用户组(我这儿用的是persistence用户启动had...

2017-03-26 16:13:33

阅读数:513

评论数:0

hadoop-chapter 2

一.namenode->可以看作是分布式文件系统中的管理者,主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等1.管理文件系统文件的元数据信息(包括文件名称、大小、位置、属性、创建时间、修改时间等等)2.维护文件到块的对应关系和块到节点的对应关系3.维护用户对文件的操作信息(文件的...

2017-03-06 18:03:21

阅读数:369

评论数:0

hadoop - chapter 1

一.分布式1.分布式是指将不同的业务分布在不同的地方。 而集群指的是将几台服务器集中在一起,实现同一业务。2.分布式是以缩短单个任务的执行时间来提升效率的,而集群则是通过提高单位时间内执行的任务数来提升效率。二.cap理论C(Consistency一致性):所有的节点上的数据时刻保持同步A(Ava...

2017-03-06 14:31:13

阅读数:213

评论数:0

大数据学习笔记(三)-k-均值聚类&多维缩放找聚类

1.k-均值聚类 因为前面的几种求聚类的算法,需要计算两两配对项的关系,在数据集大的时候,速度会很慢。所以我们要学习k-均值聚类 算法思想:我们会事先知道需要聚类的数量。这儿假设我们需要n个聚类,那么我们先随机生成n个中心位置。然后利用聚类算法将各个数据项分配给最邻近的中心位置,然后移动中心位...

2016-12-14 21:39:17

阅读数:1104

评论数:0

大数据学习笔记(二)-分级类聚&列类聚

下面用到的数据及代码:click here 1.获取数据: 来自100个博客里面的所有文章单词数目,这儿用的rss订阅源对文章数据进行获取,rss获取出来是xml文件格式,所以可以下载一个feedparser来对xml文档进行解析。关于怎么得到每篇博客的每个单词的统计情况,请自行查看gener...

2016-12-13 17:20:17

阅读数:951

评论数:0

mongodb和redis 的常用指令和python远程连接

一.mongodb 更多指令参见mongodb大全 1.安装mongodbubuntu:apt install mongodb centos:yum install mongodb启动服务service mongodb start进入mongodb交互mongo [你的ip]2.常用指令 我...

2016-12-12 20:48:33

阅读数:461

评论数:0

yum 和 rpm 安装软件

1.yumyum check-update -> 检查可以更新的软件包 yum update ->更新所有软件包 yum install 服务名 [-y] -> 安装软件 yum remove 服务名 ->删除服务 yum clean packages ->清除缓存...

2016-12-12 11:27:31

阅读数:242

评论数:0

大数据学习笔记(一)-提供推荐

1.获取数据: 这儿有一个开源的数据集grouplens 以及集体智慧编程上的数据集。以下是集体智慧编程上的一个关于电影评价的数据集critices={ 'Lisa Rose':{ 'Lady in the Water':2.5,'Snakes on a plane':...

2016-12-11 11:19:47

阅读数:556

评论数:0

用eclipse远程连接hadoop-2.6.0

所有需要的文件都在这:hadoop 提取码:j6zx 1.下载eclipse(或者用我传的压缩包) 下载解压后将hadoop-eclipse-plugin-2.6.0.jar放在eclipse目录的plugins目录下 2.下载hadoop-2.6.0,并解压 3.将下载下来的bin...

2016-12-05 21:55:33

阅读数:518

评论数:1

基于keystone的swift搭建

OpenStack组件Swift单机搭建(基于Keystone)该博客是我们班的张大神写的,在此借用一下。 安装环境:Ubuntu 16.04 需要有两块硬盘(一块为系统盘,一块用于安装SWIFT) 需要有IP地址 环境准备 修改hosts文件 安装相关服务 修改host...

2016-12-04 09:47:50

阅读数:686

评论数:1

hadoop 2.6.0完全分布式安装

1.安装安装前准备:装有openssh server的ubuntu14.04 系统三台(也可以准备1台,后面进行虚拟机的克隆,或者导入导出)。这儿需要三台机器在同一个网段内。开始安装1)启动三台虚拟机,分别修改主机名sudo vim /etc/hostname分别命名为: HadoopMaste...

2016-12-03 22:50:45

阅读数:792

评论数:1

vim 编辑器常用指令

1.设置vim编辑器的默认选项vim ~/.vimrc -->修改vim编辑器默认选项#tab缩进四个空格 set ts=4 #自动缩进 set autoindent #显示行号 set nu #高亮匹配括号 set showmatch #高亮搜索结果 set hlsearch #搜索即时显...

2016-11-22 12:17:01

阅读数:243

评论数:0

docker 细节

1.red hat 发布的版本中,docker的配置文件的位置在/usr/lib/systemd/system/docker.service 和 /etc/sysconfig/docker文件中2.使用docker 加速器进入daocloud,然后注册账号后,进入控制台,就会看见一个加速器按钮,进...

2016-11-22 11:04:32

阅读数:238

评论数:0

linux系统让进程后台运行

1.最简单的方式,这儿我用运行python文件的方式演示python Data.py &就是在运行的指令后面加”&” 2.先运行了进程后,然后ctrl+z暂停现在的进城,可以用jobs指令查看暂停或者运行中的进程。查看了后[1]+ Stopped ...

2016-11-19 20:40:47

阅读数:270

评论数:0

windows 64 无法安装mysql-python

1.进入这个网站http://www.lfd.uci.edu/~gohlke/pythonlibs/下载MySQL_python‑1.2.5‑cp27‑none‑win_amd64.whlps:该网站内容较多,使用ctrl+f快捷键2.进入windows cmd命令行安装wheelpip inst...

2016-11-16 16:56:07

阅读数:3468

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭