2018年02月_fort110

原创机器学习-----构建房屋售价预测回归模型

启动graphlab createimport graphlab读取一些房屋销售数据sales = graphlab.SFrame('根据自己的目录读取home_data.gl文件')graphlab.canvas.set_target('ipynb') //设置画出的图像在ipython notebook中现实sales.show(view = "Scatter Plot",x = "sqf...

2018-02-28 00:12:06 3127

原创机器学习---线性回归（房价预测）

不在线上的点到预测的线的距离的平方-------残差平方和（找出最小值）1.训练误差（使其最小化）2.测试误差（排出的数据训练）实际举例：回归的总结：...

2018-02-25 23:55:20 4365 1

原创机器学习认知之路------python入门

条件语句判断：循环：函数体描述：

2018-02-25 16:43:10 268

原创机器学习认知之路-----安装到Anaconda Python环境

第1步：下载Anaconda2 v4.0.0第2步：安装Anaconda# Run Anaconda2 v4.0.0 installer.bash /path to download file/Anaconda2-4.0.0-Linux-x86_64.sh第3步：创建conda环境# Create a new conda environment with Python 2.7.xconda c...

2018-02-24 22:47:14 585

原创初识spark、maven仓库环境和scala环境

2018-02-23 17:29:37 545

原创数据可视化的流程

2018-02-21 02:56:10 1531

原创分布式计算框架MapReduce

1.JobTracker：JT作业的管理者将作业分解成一堆的任务：Task（MapTask和ReduceTask）将任务分配给TaskTracker运行作业的监控、容错处理心跳检测：在一定的时间间隔内，JT没有收到TT的心跳信息，TT可能挂了,TT上运行的任务会被指派到其他TT上去执行2.TaskTrack：TT任务的执行者在TT上执行我们的Task与JT进行交互：执行/启动/停止作业，发送心跳信...

2018-02-20 11:26:55 348

原创分布式计算框架mapreduce

从wordcount来学习：统计文件中的单词书目1.读取 2.拆分 3.读取split中的数据 4.每一行交由map处理 5.结果由partition分区交由对应的reduce处理 6.通过outputformat进行输出写到文件系统上面...

2018-02-20 09:58:03 278

原创 YARN的环境搭建

配置yarn Yarn是hadoop的资源调度器，可以配置mapreduce job基于yarn运行。 1)配置etc/hadoop/mapred-site.xml（告诉mapreduce框架，最终执行时跑的位置是yarn上）<configuration> <property> <name>mapreduce.framework...

2018-02-19 18:39:26 309

原创资源调度框架YARN简述

YARN的产生背景（通俗讲就是需要在不同时间使用不同的工具来处理数据，需要一个工具来调度，这个工具就是yarn）：YARN的架构：重要的组件介绍：1）resource manager（RM）：整个集群同一时间提供服务的RM只有一个（公司中会有一个备用的），负责集群资源的统一管理处理客户端（client）的请求：提交一个作业、杀死一个作业监控NM，一旦NM节点挂掉，上面运行的任务如何处理要告诉AM来...

2018-02-19 18:11:10 603

原创 HDFS的读写过程简述

主要的角色：客户端：负责发起或提交读写请求（如果往HDFS上存储数据或获取数据，就要告诉客户端）。namenode：HDFS的核心负责全局协调，做任何事都要向这里汇报，和把控所有的请求。datanode：数量不定，负责数据的存储。把数据写到HDFS的集群的过程1.用户向客户端请求服务请求角色：1.hdfs shell2.JAVA API ...

2018-02-19 15:57:57 5370

原创 HDFS shell 常用命令的使用

基础命令：hadoop fs +命令行递归展示文件：hadoop fs -lsr /

2018-02-15 11:18:24 230

原创 hadoop伪分布式安装步骤

http://blog.csdn.net/weixin_39216383/article/details/78953236配置http://blog.csdn.net/ye1142262478/article/details/50628643修改主机名1.安装linux6.4版本2.安装jdk7u79版本解压安装包：* -C为指定目录配置javahome：使环境变量生效:source ~/.bas...

2018-02-15 09:23:35 310

转载细读HDFS的框架结构

传统分布式文件：什么是HDFS？要点：1.1个master带N个slaves datenod管理数据的存储namenod（nn）负责文件系统的读写操作datenod（dn）负责块的一些操作

2018-02-12 16:41:06 412

原创 hadoop常用版本和选型

hadoop常用版本和选型apache hadoop 原生的，工作生产不建议CDH：优点：网页安装配置简单和spark合作完美（占30%）缺点：安装框架不开源 www.cloudera.com/cdh5/cdh/5/使用版本：HDP：开源（占60%），安装费劲...

2018-02-10 17:49:28 2634

转载如何搭建一个GitHubpage

https://www.zhihu.com/question/20376047?sort=createdhttp://www.pchou.info/ssgithubPage/2013-01-03-build-github-blog-page-01.html

2018-02-10 12:22:31 316

原创 hadoop核心组件分布式文件系统HDFS、资源调度管理系统YARN、分布式计算框架MapReduce

分布式存储系统的第一印象HDFS是基于谷歌的GFS的克隆版本HDFS的特点：可扩展性（当节点不够添加一台机器就可以了），可容错的（多副本的方式可存储的），海量数据的存储将上传文件切分成指定大小的数据块（128M）并以多副本的存储在多个机器上（处理对象任然是文件，具体的切分、多副本和容错由hadoop完成）fiflename文件名称numreplicas数据重复次数block-id被重复的数据编号资...

2018-02-10 12:08:54 1095

原创初识hadoop

1.什么是hadoophadoop是一个可靠（reliable）的、可扩展（scalable）的分布式（distributed）的开源计算框架！Apache hadoop 允许分布式处理的一个软件，并且跨越在集群的机器上（意思是数据分开存储在各个节点之上的），并且使用一种简单的编程模型。可以从单个数据信号扩展到成百上千台机器上。2.hadoop主要包含了哪些模块hadoop common（通用包）...

2018-02-10 11:45:20 175

fort110的博客