2016年08月_Bean502

原创 Scala（三）之“控制结构”

for和foreach循环遍历一个集合中的所有元素，对集合中的每个元素进行操作，或者利用现有的集合创建一个新集合。scala> val a = Array("apple", "banana", "orange")a: Array[String] = Array(apple, banana, orange)scala> for(e <- a) println(e)applebananao

2016-08-29 23:15:23 795

原创 Scala（二）之“数值”

Scala中所有的数值都是对象，包括Byte、Char、Double、Float、Int、Long和Shart。与被称为“非数值类型”的Unit和Boolean一样，这些数值类型都继承扩展自AnyVal特质（trait）数据类型的精确范围值得查看：scala> Short.MinValueres45: Short = -32768scala> Short.MaxValueres46: Shor

2016-08-29 09:11:49 4777

原创 Scala（一）之“字符串”

Scala中的String类

2016-08-28 13:22:17 17522 1

原创 Scrapy爬虫（一）

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

2016-08-28 10:50:26 710

原创 PDB命令行调试Python程序

* 待续……*

2016-08-25 11:14:29 699

原创机器学习（二）k-近邻分类算法（kNN）

1、k-近邻算法概述k-近邻算法采用测量不同特征值之间的距离的方法进行分类。优点：精度高、对异常值不敏感、无数据输入假定；缺点：计算复杂度高、空间复杂度高；适用数据范围：数值型和标称型。2、工作原理：存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样

2016-08-21 19:43:19 1237

原创 Hadoop 3.0学习笔记(持续更新....)

HDFS联盟：为了水平扩展服务，联盟使用多个独立的NamNode。联盟的NameNode是互相独立的，不互相协调。每个DataNode与集群中的所有NameNode注册，DataNode节点周期性发送的心跳和块报告和处理命令的节点。MapReduce NextGen aka YARN aka MRv2：新的功能已经在Hadoop-0.23中介绍过了，划分了JobTracker两个功能：

2016-08-21 17:39:44 932

原创机器学习（一）

1、什么是机器学习？机器学习就是把无序的数据转换成有用的信息。2、特征或者属性通常是训练样本集的列，它们是独立测量得到的结果，多个特征联系在一起共同组成一个训练样本3、机器学习的主要任务：分类、回归，分类以及回归属于监督学习。 *无监督学习——聚类4、选择算法： *使用机器学习算法的目的，想要完成何种任务； --预测目标变量的值：监督

2016-08-21 17:33:59 632

GnahzNib的博客