coder_Gray-CSDN博客

原创 Spark之核心---RDDs（1）

随着Spark在分布式计算中越来越流行，启用了内存数据分布级，补充Hadoop上对于迭代问题效率较低的问题，同时Spark和scala的完美融合也使Spark更具优越性。本篇将介绍Spark的核心—RDDs的基本概念，创建方法和RDDs的特性三个部分。 RDDs的操作方法将在下一篇具体介绍。1. RDDs的基本概念首先了解什么是RDDs： RDDs（Resilient distributed d

2017-08-14 18:31:04 932

原创浅谈机器学习框架和算法

概述机器学习，顾名思义，就是学习得像机器一样，形成一种解决某类问题的模型，以便我们遇到问题解决问题。下面我将介绍机器学习的框架和一些常用的比较主流的算法。框架确定目标业务需求：首先我们必须要明确机器学习是要用来解决问题的，一般是通过大量的数据，来预测未来的行为。所以首先要明确的就是业务需求，明确了业务需求，才能采集对应的数据，进行深入研究。数据：这个数据就是我们要分析的基础，但不是机器学习的直接

2017-08-03 13:40:42 4982

原创 python+eclipse+pydev安装配置

最近在利用eclipse写python爬虫，发现还挺方便，不过需要安装插件，方法如下准备工作已安装好Eclipse编译器。安装好了python2或python3。由于语法有些差别，保险起见，我安装了python2.7安装好了JAVA的IDK。由于Eclipse是java的IDE，所以有java的JDK才能正常使用Eclipse了解pydev插件（不需下载）在Eclipse中安装pydev插

2017-08-01 21:48:04 602

原创关于Python2.7得到结果乱码的问题解决办法

相信这个问题已经困扰了很多人很久，同样我也是这个问题的受害者。网上的解决方案众说纷纭，不过大多都是针对特定问题的特定解决办法。此方法之在Python2.7中测试有效，其他版本也可尝试。下面这种方法，适用于所有这类问题。不需要在输出时，或者调用函数转化，直接在最前面加上三行代码即可。import sysreload(sys)sys.setdefaultencoding('utf-8')将这

2017-08-01 18:33:16 1036

原创 Tomcat目录结构介绍及简单项目部署

下载安装下载地址：tomcat官方主页安装按照正常windows软件流程即可，不过需要注意：安装路径不要有汉字存在，保证全英文路径目录结构介绍安装完成后的tomcat文件夹应包括一下几个文件夹：bin：包括一些批处理文件以及jar包。最有有用的是startup.bat和shutdown.bat分别为tomcat的启动和关闭进程。conf：存放着tomcat的配置文件，可以在server.xm

2017-07-27 22:06:53 764

原创 Fedora 安装配置hive2.1.1

一、hive的运行模式hive共有三种运行模式1. 内嵌模式将元数据保存在本地内嵌的 Derby 数据库中，这是使用 Hive 最简单的方式。但是这种方式缺点也比较明显，因为一个内嵌的 Derby 数据库每次只能访问一个数据文件，这也就意味着它不支持多会话连接。 2. 本地模式这种模式是将元数据保存在本地独立的数据库中（一般是 MySQL），这用就可以支持多会话和多用

2017-05-31 14:09:15 642

原创 Fedora 24 下安装配置mysql

1. 前期准备系统版本：fedora 24 mysql下载版本：mysql-5.6.36 (下载地址：http://dev.mysql.com/downloads/mysql/) 2. 解压进入下载目录，执行tar -xzvf mysql-5.6.36-linux-glibc2.5-x86_64.tar.gzcp -r mysql-5.6.36-linux-glibc2.5

2017-05-30 16:54:08 1608

一、GCOV简介Gcov工具的基本功能是可以查看测试时代码执行的覆盖率，包括函数覆盖，语句覆盖，分支覆盖等覆盖内容。有助于分析被测程序的缺陷。使用该工具可以查看程序在某分支处的执行频率，从而分析程序的性能。二、GCOV使用gcov伴随gcc 发布。gcc编译加入-fprofile-arcs -ftest-coverage 参数生成二进制程序，执行测试用例生成代码覆盖率信息。 fprofile-ar

2017-04-26 08:09:48 1433

原创 hadoop之hdfs和yarn

一.简介- 什么是hdfs？ hdfs是一种分布式系统，其组成是namenode节点和datanode节点。顾名思义，namenode是“名字节点”，存储的是这部分存储区域的相关信息，并管理datanode节点；而datanode存储的就是数据。一个namenode对应一个或多个datanode节点，每一个datanode运行在一台机器上，所以这些datanode组合到一起将形成一个集群（c

2017-03-19 23:59:16 1648

原创《肖申克的救赎》影评

最近我观看了第5遍《肖申克的救赎》，也许有人会问，一部电影而已，值得浪费那么多时间看那么多遍吗。我的答案是肯定的。好酒越酿越醇，好的影片也是这样。每一次的观影感受都是不同的，也许这才是好电影所能带来的独有的魅力。现在正值开学初期，各类课程都还不算紧张，原本是打算看看电影练练英语，不过从练英语的角度来说，我的确有些后悔选了这样的一部片子，一部看着看着就被带入深刻的思考的片子；然而从人生思考的角度，

2017-03-06 22:14:44 1623

原创记：第一篇CSDNBLOG

为什么要写博客作为一名学习计算机专业的学生，不断地学习涉猎新知识是必要的。计算机的一些技术不同于某些的学科，有明确的概念，有搭配的试题，而我理解的计算机的学问关键在于“折腾”，没错，就是折腾。通过折腾，我们不断地尝试，不断地解决我们遇到的bug以及一些问题；通过折腾，我们能够深入地理解我们所学习的知识，所遇到的问题以及解决办法。不过一切的知识都需要沉淀，这个过程也就是把我们学到的东西，把在网上

2017-02-26 20:37:17 389

coder_Gray的博客