自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(140)
  • 资源 (1)
  • 收藏
  • 关注

原创 机器学习笔记:最大熵(模型,推导,与似然函数关系的推导,求解)

最大熵原理:最大熵原理认为在学习概率模型时,在所有可能的概率模型中,熵最大的模型是最少的模型。

2018-12-21 23:02:23 1678 5

原创 机器学习笔记:决策树(ID3,C4.5,CART)

决策树是一种树形结构,对实例进行分类和回归的,下面主要说的是用来进行分类,最后说道CART的时候也会说到决策树用到回归问题上。

2018-12-20 17:33:20 849

原创 感知机模型、学习算法、收敛性证明

感知机是用来进行**二类分类**的分类模型,而感知机的学习过程就是求出将训练数据进行线性划分的分离超平面过程。下面会给出感知机模型,接着进行学习,最后证明算法的收敛性。

2018-12-20 00:12:26 2973 1

原创 朴素贝叶斯模型、推导、拉普拉斯平滑

先引出朴素贝叶斯模型,接下来会给出部分推导,最后会结束拉普拉斯平滑。

2018-12-19 01:00:34 1611 3

原创 机器学习笔记:线性回归、逻辑斯蒂回归推导

头一次写机器学习的东西,很慌,但是觉得初学者还是能容易读懂的,写的还算比较细。

2018-12-18 19:40:18 725

原创 半小时学完Pandas

前面学了Numpy,numpy能够帮助我们处理数值,但是pandas除了处理数值之外(基于numpy),还能够帮助我们处理其他类型的数据,同样半小时学完下面的内容是没问题的。

2018-12-01 23:17:10 614

原创 半小时学完Numpy

前面写了Matplotlib,这里继续把科学计算基础库Numpy给写完,后面再写个Pandas那么三大件就写完了,然后准备入手ML。由于是代码+输出的形式,所以半小时学完是没问题的。

2018-12-01 00:07:22 453

原创 半小时学完可视化利器Matplotlib

学ML那么常用工具库Numpy,Pandas,Matplotlib和Scipe等肯定是要用到的,磨刀不误砍柴工,所以先学一些是有必要的,这里先学习下Matplotlib,由于是代码+图的学习,所以半小时是够的。

2018-11-30 16:29:57 519

原创 2小时学完机器学习必备Python基础

打算花几个月学下机器学习,还是打算先过一遍python,虽然很多人说没必要但是觉得磨刀不误砍柴工,毕竟Java基础在那学python基础肯定是极快的。

2018-11-26 20:44:48 454

原创 18年秋招-Java后端面试总结与心路历程(非科班小白勉强拿几个互联网offer但是决定转行了)

犹豫了很久要不要做机器学习,时间就这样浪费掉了很多,最后还是决定去学,然后打算春招,即使没找到或者找的不好都算完成了心愿。首先说一下自己的情况,本硕都算管理相关专业,16年11月起开始学的编程(其实最多学了一年,因为很多时间写paper去了,然后还打了lol),其实至今都想不起为什么做了Java而不是ML,也许是个人信息滞后吧。打算春招,不是秋招没找到而是想转岗,秋招投了30家左右吧,目前拿到...

2018-11-15 02:02:46 4732 3

原创 使用Akka实现一个简单的RPC框架(二)

需求以及实现思路如下 至于Master与Worker的编写参考使用Akka实现简单rpc(一)

2017-11-30 13:50:31 1486

原创 使用Akka实现一个简单的RPC框架(一)

Akka用Scala语言开发,基于Actor并发模型实现,Akka具有高可靠、高性能、可扩展等特点,使用Akka可以轻松实现分布式RPC功能。

2017-11-30 11:44:26 4142

原创 快学Scala-Actor并发编程实现WordCount

使用scala的多线程来做wordcount之前至少要知道单击版怎么做wordcount,所以先在命令行做单机版的单词计数,具体解释参考 单词计数

2017-11-28 15:16:44 613

原创 快学Scala- Scala Actor 并发编程

Scala中的Actor能够实现并行编程的强大功能,它是基于事件模型的并发机制,Scala是运用消息(message)的发送、接收来实现多线程的。使用Scala能够更容易地实现多线程应用的开发。

2017-11-28 13:41:19 403

原创 快学Scala-模式匹配、样例类、Option类、偏函数

Scala有一个十分强大的模式匹配机制,可以应用到很多场合:如switch语句、类型检查等。 并且Scala还提供了样例类,对模式匹配进行了优化,可以快速进行匹配

2017-11-27 22:51:17 450

原创 快学Scala-类、对象、继承、特质

Scala的类与Java、C++的类比起来更简洁,学完之后你会更爱Scala!。。。其实我并没有。

2017-11-27 21:01:23 937

原创 快学Scala-单词计数程序、并行计算

hadoop和strom都有介绍过怎么进行单词计数,这里使用Scala来实现个简易的单词计数程序,在这之前补充几个常用方法

2017-11-25 17:52:48 876

原创 快学Scala-元祖、集合

会java的集合操作,再学Scala的元祖和集合就很快了

2017-11-24 23:30:07 659

原创 快学Scala-数组、映射

快学Scala-数组、映射

2017-11-24 22:07:11 355

原创 快学Scala-方法和函数

在java中我们基本是不区分方法和函数的,但是在scala中则有区分,而函数毕竟才是函数式编程的“头等公民”

2017-11-24 20:49:34 376

原创 快学Scala-变量声明、常用类型、条件与块表达式、循环、方法函数的调用

为了方便且内容显示更清楚,这里大部分都是使用scala的shell操作

2017-11-24 17:24:35 552

原创 jdk安装与环境变量配置、Scala编译器安装、IDEA安装Scala插件

Spark是由Scala编写的,学Scala大部分就是为了学Spark,至少能读懂一些源码,但是主语言又是java,所以快速学习下Scala挺有必要的但是既然不是主语言也不打算做深究了

2017-11-24 16:10:49 1364

原创 Kafka java api-消费者代码与消费分析、生产者消费者配置文件详解

Kafka java api-消费者代码与消费分析、生产者消费者配置文件详解

2017-11-22 15:33:52 2918

原创 Kafka java api-生产者代码、高性能吞吐

前面做过命令行让生产者发送消息,现在使用java api来进行消息的生产,以及解释kafka高性能是如何实现(来源于学习资料)。

2017-11-22 13:43:15 3234

原创 kafka的消息消费机制、consumer的负载均衡、文件存储机制

这篇笔记的内容回答了上篇 Kafka运行机制与各组件详解 剩余的问题(这些内容来自于学过的学习资料)。

2017-11-21 23:31:12 8114

原创 Kafka运行机制与各组件详解

图中从左到右能比较明显的看到三部分:对应生产者,目的地,消费者,生成者生成消息发送到目的地,消费者则从目的地主动拉取消息。

2017-11-21 22:04:24 2699

原创 Kafka集群部署与shell命令行操作

在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。KAFKA + STORM +REDIS1、Apache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。

2017-11-21 20:09:27 1821

原创 Storm架构与编程模型分析

这里使用wordcount程序来进行分析

2017-11-07 18:04:31 391

原创 Storm的wordcount代码编写与分析

storm包里面是给了wordcount程序实例的,所以我们是可以参考这个来自己实现。

2017-11-07 17:32:34 754

原创 Storm集群部署与单词计数程序

要搭建storm集群首先需要由zookeeper,关于zookeeper集群的搭建参考zookeeper集群搭建,这里使用三台机器,一台做做nimbus(mini1机器),两台做supervisor(mini2和mini3机器)。

2017-11-07 16:49:18 695

原创 Storm核心组件、编程模型

storm是用来做实时计算的框架,所以介绍storm之前需要知道什么是流式计算。 流式计算:数据实时产生、数据实时传输、数据实时计算、实时展示 代表技术:Flume实时获取数据、Kafka/metaq实时数据存储、Storm/JStorm实时数据计算、Redis实时结果缓存、持久化存储(mysql)。一句话总结:将源源不断产生的数据实时收集并实时计算,尽可能快的得到计算结果。

2017-11-07 15:10:48 518

原创 使用mapreduce操作Hbase

前面用了java api操作了hbase,这里就用mapreduce来操作mapreduce。

2017-11-01 23:31:26 1171

原创 java api操作hbase

HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBASE的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。

2017-11-01 18:06:35 1021

原创 Hbase命令

hbase提供了一个shell的终端给用户交互[root@mini1 bin]# ./hbase shell退出使用quit或者ctrl+c即可。 注:需要关闭hadoop的安全模式不然进行一些操作,比如scan会卡住

2017-10-31 21:29:32 529

原创 Hbase集群安装与常见问题解决

首先说明,要使用hbase是需要先安装hadoop和zookeeper的(也可以使用自带的但是不建议),参考zookeeper集群安装 hadoop集群安装

2017-10-31 20:09:01 1057

原创 Sqoop的安装与数据的导入导出

Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。其机制是将导入或导出命令翻译成mapreduce程序来实现

2017-10-27 11:08:41 525

原创 Azkaban实战案例

1/Commond类型多job执行 ,2/hdfs操作,3/mapreduce程序,4/hive脚本任务

2017-10-26 22:29:22 3876

原创 azkaban的安装部署、使用与常见问题解决

为什么需要工作流调度系统 一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序,java程序,mapreduce程序、hive脚本等 各任务单元之间存在时间先后及前后依赖关系 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行;

2017-10-25 13:05:47 9635 2

原创 Flume的安装与使用详解

Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中 Flume的运行机制

2017-10-24 21:33:17 799

原创 Hive中一个较难的面试sql-级联求和

这是一个名企经常出的面试题,级联求和。

2017-10-23 13:02:12 1442 1

mybatis快速入门

关于学习mybatis的视频和书都是很多的,如果要快速入门肯定要学一些点,这个文档我觉得还是能在一天内帮助快速入门的

2018-07-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除