- 博客(51)
- 收藏
- 关注
原创 Spark之核心---RDDs(1)
随着Spark在分布式计算中越来越流行,启用了内存数据分布级,补充Hadoop上对于迭代问题效率较低的问题,同时Spark和scala的完美融合也使Spark更具优越性。本篇将介绍Spark的核心—RDDs的基本概念,创建方法和RDDs的特性三个部分。 RDDs的操作方法将在下一篇具体介绍。1. RDDs的基本概念首先了解什么是RDDs: RDDs(Resilient distributed d
2017-08-14 18:31:04
932
原创 浅谈机器学习框架和算法
概述机器学习,顾名思义,就是学习得像机器一样,形成一种解决某类问题的模型,以便我们遇到问题解决问题。下面我将介绍机器学习的框架和一些常用的比较主流的算法。框架确定目标业务需求:首先我们必须要明确机器学习是要用来解决问题的,一般是通过大量的数据,来预测未来的行为。所以首先要明确的就是业务需求,明确了业务需求,才能采集对应的数据,进行深入研究。数据:这个数据就是我们要分析的基础,但不是机器学习的直接
2017-08-03 13:40:42
4982
原创 python+eclipse+pydev安装配置
最近在利用eclipse写python爬虫,发现还挺方便,不过需要安装插件,方法如下准备工作已安装好Eclipse编译器。安装好了python2或python3。由于语法有些差别,保险起见,我安装了python2.7安装好了JAVA的IDK。由于Eclipse是java的IDE,所以有java的JDK才能正常使用Eclipse了解pydev插件(不需下载)在Eclipse中安装pydev插
2017-08-01 21:48:04
602
原创 关于Python2.7得到结果乱码的问题解决办法
相信这个问题已经困扰了很多人很久,同样我也是这个问题的受害者。网上的解决方案众说纷纭,不过大多都是针对特定问题的特定解决办法。此方法之在Python2.7中测试有效,其他版本也可尝试。 下面这种方法,适用于所有这类问题。 不需要在输出时,或者调用函数转化,直接在最前面加上三行代码即可。import sysreload(sys)sys.setdefaultencoding('utf-8')将这
2017-08-01 18:33:16
1036
原创 Tomcat目录结构介绍及简单项目部署
下载安装下载地址:tomcat官方主页 安装按照正常windows软件流程即可,不过需要注意:安装路径不要有汉字存在,保证全英文路径目录结构介绍安装完成后的tomcat文件夹应包括一下几个文件夹:bin:包括一些批处理文件以及jar包。最有有用的是startup.bat和shutdown.bat分别为tomcat的启动和关闭进程。conf:存放着tomcat的配置文件,可以在server.xm
2017-07-27 22:06:53
764
原创 Fedora 安装配置hive2.1.1
一、hive的运行模式hive共有三种运行模式1. 内嵌模式 将元数据保存在本地内嵌的 Derby 数据库中,这是使用 Hive 最简单的方式。但是这种方式缺点也比较明显,因为一个内嵌的 Derby 数据库每次只能访问一个数据文件,这也就意味着它不支持多会话连接。 2. 本地模式 这种模式是将元数据保存在本地独立的数据库中(一般是 MySQL),这用就可以支持多会话和多用
2017-05-31 14:09:15
642
原创 Fedora 24 下安装配置mysql
1. 前期准备 系统版本:fedora 24 mysql下载版本:mysql-5.6.36 (下载地址:http://dev.mysql.com/downloads/mysql/) 2. 解压 进入下载目录,执行tar -xzvf mysql-5.6.36-linux-glibc2.5-x86_64.tar.gzcp -r mysql-5.6.36-linux-glibc2.5
2017-05-30 16:54:08
1608
原创 利用gcov实现代码覆盖率检测
一、GCOV简介Gcov工具的基本功能是可以查看测试时代码执行的覆盖率,包括函数覆盖,语句覆盖,分支覆盖等覆盖内容。有助于分析被测程序的缺陷。使用该工具可以查看程序在某分支处的执行频率,从而分析程序的性能。二、GCOV使用gcov伴随gcc 发布。gcc编译加入-fprofile-arcs -ftest-coverage 参数生成二进制程序,执行测试用例生成代码覆盖率信息。 fprofile-ar
2017-04-26 08:09:48
1433
原创 hadoop之hdfs和yarn
一.简介- 什么是hdfs? hdfs是一种分布式系统,其组成是namenode节点和datanode节点。顾名思义,namenode是“名字节点”,存储的是这部分存储区域的相关信息,并管理datanode节点;而datanode存储的就是数据。一个namenode对应一个或多个datanode节点,每一个datanode运行在一台机器上,所以这些datanode组合到一起将形成一个集群(c
2017-03-19 23:59:16
1648
原创 《肖申克的救赎》影评
最近我观看了第5遍《肖申克的救赎》,也许有人会问,一部电影而已,值得浪费那么多时间看那么多遍吗。我的答案是肯定的。好酒越酿越醇,好的影片也是这样。每一次的观影感受都是不同的,也许这才是好电影所能带来的独有的魅力。 现在正值开学初期,各类课程都还不算紧张,原本是打算看看电影练练英语,不过从练英语的角度来说,我的确有些后悔选了这样的一部片子,一部看着看着就被带入深刻的思考的片子;然而从人生思考的角度,
2017-03-06 22:14:44
1623
原创 记:第一篇CSDNBLOG
为什么要写博客 作为一名学习计算机专业的学生,不断地学习涉猎新知识是必要的。计算机的一些技术不同于某些的学科,有明确的概念,有搭配的试题,而我理解的计算机的学问关键在于“折腾”,没错,就是折腾。 通过折腾,我们不断地尝试,不断地解决我们遇到的bug以及一些问题;通过折腾,我们能够深入地理解我们所学习的知识,所遇到的问题以及解决办法。不过一切的知识都需要沉淀,这个过程也就是把我们学到的东西,把在网上
2017-02-26 20:37:17
389
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅