自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 资源 (1)
  • 收藏
  • 关注

原创 线性回归从公理到算法推导再到代码实现

github查看jupyter格式觉得帮到您了就在GitHub给个star吧

2018-02-24 17:09:04 437

原创 朴素贝叶斯从公理到算法推导再到算法实现

github链接,使用jupyter实现觉得帮到您了就在GitHub给个star吧

2018-02-24 17:03:33 886

原创 概率图模型之:贝叶斯网络

1、贝叶斯定理P(A∣B)=P(A)P(B∣A)P(B)P(A \mid B) = \frac{P(A)P(B \mid A)}{P(B)} P(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率。 P(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。 P(A)是A的先验概率或边缘概率。之所以称为”先验”是因为它不考虑任何B方面的

2017-04-19 19:25:01 48037 5

原创 贝叶斯定理在拼写检查中的应用

贝叶斯定理 条件概率 通常条件概率表示为P(A|B)P(A|B),表示在给定B条件下A事件发生的概率。联合概率 两个事件同时发生的概率,表示为P(A,B)P(A, B),事件A,B互相独立时有P(A,B)=P(A)P(B)P(A,B)=P(A)P(B) 通常意义下,联合概率表示为P(A,B)=P(A)P(B|A)P(A, B)=P(A)P(B|A)贝叶斯定理 由联合概率乘法交换律

2017-04-19 18:58:32 1610

原创 pig数据导入性能优化(map端)

主要分为两个方面: 将小文件合并; 将大文件分割

2017-01-19 16:14:35 1208

原创 pig数据类型

Pig的数据类型可以分为两大类:基本类型和复杂类型。基本类型: int、long、float(浮点数,一般会丢失精度,要求严格可使用int或者long保证不丢失精度)、double(浮点数,一般会丢失精度,要求严格可使用int或者long保证不丢失精度) chararray:字符串或者字符数组。它是通过java.lang.String实现的。chararray常量是以加单引号的一系列字符来表示,

2016-12-25 22:39:00 3693

原创 Hadoop源码之----hadoop-common-project(一、工程目录结构)

下图为hadoop-common-project结构 在hadoop-common-project中主要研究hadoop-common包里边的代码

2016-12-13 01:10:10 2486

转载 Kafka原理

1、Kafka介绍       Kafka是由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等。2、Kafka文件存储机制Kafka部分名词解释如下:        Broker:消息中间件处理结点,一个Kafka节点就是一个broker,

2016-11-29 11:17:32 1821

原创 常用Linux命令汇总(持续更新... ..)

1、top命令top命令是Linux下常用的性能分析工具,能够实时显示系统中各个进程的资源占用状况,类似于Windows的任务管理器。top - 01:06:48 up 1:22, 1 user, load average: 0.06, 0.60, 0.48Tasks: 29 total, 1 running, 28 sleeping, 0 stopped, 0 zombieCpu

2016-11-25 14:46:05 2020

原创 MacBook通过VMWare安装centos(并不是因为难,时间长了忘了,记一下!)

安装VMWare Fushion、下载CeontOS就不说了,简单的跟零一样。主要说下网络配置。 P.S.:至于VMWare的破解问题,网上找注册码,一搜一大把,有一点需要注意,不要用太新的版本,新版本可能你找到的注册码无效! 因为老出现安装好虚拟机之后,宿主机跟虚拟机互相ping通,但是虚拟机无法上网,下面重点解决这个问题。 Step1:安装好虚拟机之后,编辑/etc

2016-11-08 22:54:55 1768

原创 Shell脚本自动修改Linux网卡地址、IP地址配置、主机名修改

#!/bin/bash#Program:# 修改网卡、修改IP地址 #History:# ZhangXingbin First release 2015/07/14#定义的一些常量HOST_NAME='/etc/sysconfig/network'HOSTNAME=`hostname`ETH0='/etc/sysconfig/network-scripts/ifcfg-eth0'R

2016-11-01 20:46:02 4500

原创 数据结构--原理论述

一、数据结构简介数据:是描述客观事物的符号,死计算机中可以操作的对象,是能被计算机识别,并输入给计算机处理的符号集合。数据元素:是组成数据的、有一定意义的基本单位,在计算机中通常作为整体处理,也被称为记录。数据项:一个数据元素可以有若干个数据项组成。数据结构:是互相之间存在一种或者多种特定关系的数据元素的集合。逻辑结构与物理结构1、逻辑结构:是指数据对象中数据元素之间的相互

2016-09-20 11:41:51 2053

原创 Hadoop-3.0.0-alpha1搭建

Hadoop3.0.0的新特新 –最底版本的Java版本由Java7升级为Java8 –HDFS支持纠删码技术(即EC技术) –YARN Timeline Service v.2 –重写shell脚本 –Mapreduce task-level native优化 –支持多余2个的NameNode先决条件 1、支持平台 GNU/Linux目前被作为开发以及生产

2016-09-11 22:38:02 5287

原创 Scala(四)之“类和属性”

主构造函数 Scala中为类创建一个主构造函数和Java中不相同。 一个Scala类的主构造函数是以下的组合:构造函数参数在类内部被调用的方法在类内部执行的语句和表达式下面的类说明了在类中的构造函数参数、类字段和语句:class Person(var firstName: String, var lastName: String) { println("the cont

2016-09-05 23:58:34 681

原创 Scala(三)之“控制结构”

for和foreach循环 遍历一个集合中的所有元素,对集合中的每个元素进行操作,或者利用现有的集合创建一个新集合。scala> val a = Array("apple", "banana", "orange")a: Array[String] = Array(apple, banana, orange)scala> for(e <- a) println(e)applebananao

2016-08-29 23:15:23 700

原创 Scala(二)之“数值”

Scala中所有的数值都是对象,包括Byte、Char、Double、Float、Int、Long和Shart。与被称为“非数值类型”的Unit和Boolean一样,这些数值类型都继承扩展自AnyVal特质(trait)数据类型的精确范围值得查看:scala> Short.MinValueres45: Short = -32768scala> Short.MaxValueres46: Shor

2016-08-29 09:11:49 4678

原创 Scala(一)之“字符串”

Scala中的String类

2016-08-28 13:22:17 17363 2

原创 Scrapy爬虫(一)

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。

2016-08-28 10:50:26 631

原创 PDB命令行调试Python程序

* 待续……*

2016-08-25 11:14:29 632

原创 机器学习(二)k-近邻分类算法(kNN)

1、k-近邻算法概述k-近邻算法采用测量不同特征值之间的距离的方法进行分类。优点:精度高、对异常值不敏感、无数据输入假定;缺点:计算复杂度高、空间复杂度高;适用数据范围:数值型和标称型。2、工作原理:     存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样

2016-08-21 19:43:19 1125

原创 Hadoop 3.0学习笔记(持续更新....)

HDFS联盟:为了水平扩展服务,联盟使用多个独立的NamNode。联盟的NameNode是互相独立的,不互相协调。每个DataNode与集群中的所有NameNode注册,DataNode节点周期性发送的心跳和块报告和处理命令的节点。MapReduce NextGen aka YARN aka MRv2:新的功能已经在Hadoop-0.23中介绍过了,划分了JobTracker两个功能:

2016-08-21 17:39:44 859

原创 机器学习(一)

1、什么是机器学习?机器学习 就是把无序的数据转换成有用的信息。2、特征或者属性通常是训练样本集的列,它们是独立测量得到的结果,多个特征联系在一起共同组成一个训练样本3、机器学习的主要任务:分类、回归,分类以及回归属于监督学习。     *无监督学习——聚类4、选择算法:     *使用机器学习算法的目的,想要完成何种任务;          --预测目标变量的值:监督

2016-08-21 17:33:59 564

原创 Scala基本概念(三)——函数

Scala中定义函数需要给出函数的名称、参数和函数体。只要函数不是递归的,就不需要指定返回类型。1、默认参数和 带名参数scala> def decorate(str: String, left: String ="[",right:String="]")=left + str + rightdecorate: (str: String, left: String, right: St

2015-10-10 22:53:08 463

原创 Shell脚本自动修改Linux网卡地址、IP地址配置、主机名修改

#!/bin/bash#Program:# 修改网卡、修改IP地址 #History:# ZhangXingbin First release 2015/07/14#定义的一些常量HOST_NAME='/etc/sysconfig/network'HOSTNAME=`hostname`ETH0='/etc/sysconfig/network-script

2015-10-10 16:13:50 10316

原创 Scala基本概念(二)——循环

1、Scala拥有与Java与C++相同的while和都循环while(n > 0){r = r * nn -= 1} 2、Scala的for循环for(i 说明:在for循环的变量之前并没有val或var的指定。该变量的类型是集合的元素类型。循环变量的作用域一直持续到循环结束。3、遍历字符或数组时,可以使用until方法,until方法返回一个不包含上限的区间。

2015-10-10 15:03:36 517

原创 Scala基本概念(一)

1、val定义的值实际上是一个常量。scala>val answer = 8 * 5 + 2answer: Int = 42scala>answer = 0:6:error:reassignment to val2、var声明的值是可变的。var counter = 0counter = 1// ok,我们可以改变一个var值注:在scala中推荐使用val,除非要

2015-10-09 08:53:22 614

原创 HDFS的基本概念(一)

数据存入HDFS中时需要对其进行分片(split)、压缩等操作。HDFS使用Block(存储块)对文件的存储进行操作,Block是HDFS的基本存储单元,默认大小是64MB(Block较大的优点:可以减少用户与节点之间的通信需求;Namenode利用率高)。每个Block的默认副本数为3。HDFS数据存储的目标有两个:最大化数据可靠性(每个数据块有默认3个副本);最大化利用网络带宽资源。数据节点之

2015-09-23 08:35:00 1329

原创 初识Ubuntu——使用SecureCRT连接Ubuntu&命令行显示当前路径

一直以来,项目中跟学习中都用CentOS,当然也用过Ubuntu。只是不是特别钟爱。最近在阅读专业书籍时,好多书籍都是采用Ubuntu的,所以就来玩玩Ubuntu,所谓技多不压身!(一)通过SecureCRT连接Ubuntu。直接通过SecureCRT去链接Ubuntu无法访问到,由于Ubuntu没有安装ssh,下面介绍怎么给Ubuntu安装ssh运行如下命令:$ sudo a

2015-08-20 12:42:04 2507

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除