自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (8)
  • 收藏
  • 关注

原创 spark configuration and monitor

http://spark.apache.org/docs/latest/configuration.html#networking

2016-11-30 16:10:30 820

原创 spark on yarn

启动确保HADOOP_CONF_DIR 或YARN_CONF_DIR 指向相应的目录。 有两种启动方式:cluster mode 和 client mode。 cluster mode:./bin/spark-submit --class path.to.your.Class --master yarn --deploy-mode cluster [options] <app jar> [app

2016-11-30 14:22:04 988

原创 spark开发

第一个spark程序/* SimpleApp.scala */import org.apache.spark.SparkContextimport org.apache.spark.SparkContext._import org.apache.spark.SparkConfobject SimpleApp { def main(args: Array[String]) { val

2016-11-28 17:51:23 2206

原创 网易163邮箱模拟登录

在破解mail.163.com这个登录网页过程中,遇到了一些困难,很蛋疼,它的登录密码已经破译,但是在模拟登录过程中,不论我如何模拟这个网页http://dl.reg.163.com/l总是返回{“dt”:”04”,”ret”:”401”},无奈只好放弃转而去破解他的手机版网页,如果哪位大神知道是什么原因,跪求告知,下面回归正题。1、破解加密找到加密jsfunction rsaPwd() {var

2016-11-28 15:26:37 31916 11

原创 QQ邮箱模拟登录

1、访问下面url获取pt_login_sig:https://xui.ptlogin2.qq.com/cgi-bin/xlogin?appid=522005705&daid=4&s_url=https://mail.qq.com/cgi-bin/login?vt=passport%26vm=wpt%26ft=loginpage%26target=&style=252、获取初始化信息:https:/

2016-11-21 18:08:08 29013 9

原创 sparkmllib协同过滤推荐算法

协同过滤推荐算法,是最经典、最常用的推荐算法。通过分析用户兴趣,在用户群中找到指定用户的相似用户,综合这些相似用户对某一信息的评价,形成系统关于该指定用户对此信息的喜好程度预测。 要实现协同过滤,需要以下几个步骤:1)收集用户偏好;2)找到相似的用户或物品;3)计算推荐。用户评分从用户的行为和偏好中发现规律,并基于此进行推荐,所以收集用户的偏好信息成为系统推荐效果最基础的决定因素。用户有很多种

2016-11-20 15:39:04 8112 1

原创 sparkmllib关联规则算法(FPGrowth,Apriori)

关联规则算法的思想就是找频繁项集,通过频繁项集找强关联。 介绍下基本概念: 对于A->B 1、置信度:P(B|A),在A发生的事件中同时发生B的概率 p(AB)/P(A) 例如购物篮分析:牛奶 ⇒ 面包 2、支持度:P(A ∩ B),既有A又有B的概率 假如支持度:3%,置信度:40% 支持度3%:意味着3%顾客同时购买牛奶和面包 置信度

2016-11-20 15:15:35 10198 3

原创 sparkmllib聚类算法:k-means算法

介绍k-means算法原理比较简单,与上之前提到的C4.5算法不同,C4.5属性分类算法(有监督的),而k-means算法属于聚类算法(无监督的),两者有着本质的区别。 具体的算法描述如下: 1、随机选取 k个聚类质心点 2、重复下面过程直到收敛 { 对于每一个样例 i,计算其应该属于的类: 对于每一个类 j,重新计算该类的质心: 比较好理解。 k-means

2016-11-20 14:39:27 4146 2

原创 sparkmllib决策树算法

定义决策树(decision tree)是一个树结构,决策树由节点和有向边组成。 节点有两种类型:内部节点和叶节点,内部节点表示一个特征或属性,叶节点表示一个类。 其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出。决策树学习过程决策树学习的本质是从训练数据集上归纳出一组分类规则,通常采用启发式的方法:局部最优。 具体做法就是,每次选择feature时,都挑选当

2016-11-19 17:25:19 5637

原创 sparkmllib朴素贝叶斯分类算法

贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文作为分类算法的第一篇,将首先介绍分类问题,对分类问题进行一个正式的定义。然后,介绍贝叶斯分类算法的基础——贝叶斯定理。最后,通过实例讨论贝叶斯分类中最简单的一种:朴素贝叶斯分类。1. 基本概念1)P(A) 是A的先验概率或边缘概率。之所以称为”先验”是因为它不考虑任何B方面的因素。 2)P(A|B) 是已知B发生

2016-11-19 15:36:23 7891

原创 sparkmllib逻辑回归源码学习

简述sell = a*x + b*y + c*z + d*zz + e上面我们的sell是一个具体的实数值,然而很多情况下,我们需要回归产生一个类似概率值的0~1之间的数值(比如某一双鞋子今天能否卖出去?或者某一个广告能否被用户点击? 我们希望得到这个数值来帮助决策鞋子上不上架,以及广告展不展示)。这个数值必须是0~1之间,但sell显然不满足这个区间要求。于是引入了Logistic方程,来做归一化

2016-11-16 20:42:16 4807

原创 新浪邮箱模拟登录java

抓包分析1、破解用户名和密码首先访问链接:/** * stage 1 */String url = "http://login.sina.com.cn/sso/prelogin.php?entry=cnmail&callback=sinaSSOController.preloginCallBack&su=&rsakt=mod&client=ssologin.js(v1.4.18)&_=" +

2016-11-16 15:23:56 11586 5

原创 sparkmllib线性回归源码学习

数学模型 批量梯度下降算法 J(θ)的极小值问题-> 梯度下降法: 随机梯度下降算法当样本集数据量m很大时,批量梯度下降算法每迭代一次的复杂度为O(mn),复杂度很高。 即每读取一条样本,就迭代对 进行更新,这样迭代一次的算法复杂度为O(n)。源码分析MLlib的线性回归模型采用随机梯度下降算法来优化目标函数,MLlib实现了分布式的随机梯度下降算法,其分布方法是:在每次迭代中,随机

2016-11-15 21:38:29 2803

原创 sparkmllib矩阵向量

Spark MLlib底层的向量、矩阵运算使用了Breeze库,Breeze库提供了Vector/Matrix的实现以及相应计算的接口(Linalg)。但是在MLlib里面同时也提供了Vector和Linalg等的实现。 使用需导入:import breeze.linalg._import breeze.numerics._Breeze创建函数val m1 = DenseMatrix.zeros

2016-11-14 22:20:23 3332

原创 spark源码学习

从启动SparkContext开始1、createTaskScheduler: 创建scheduler 、backendcase SPARK_REGEX(sparkUrl) => val scheduler = new TaskSchedulerImpl(sc) val masterUrls = sparkUrl.split(",").map("spark://"

2016-11-13 14:17:31 1705

原创 spark学习-核心组件

每个partition一定会分配一个task. 把计算移到你数据所在的地方。 spark优先使用内存进行存储,只有当内存满了,才会把数据置换到磁盘。

2016-11-12 17:47:54 1277

原创 scala传值调用和传名调用

传调用使用=>符号表示,两者的区别在于,传值调用在使用时已经计算好,而传名调用只有在使用的时候调用。object Test { var money = 10 def drink: Unit = { money -= 1 } def count: Int = { drink money } def printByName(x:

2016-11-11 16:02:43 3530 1

原创 spark学习

Application:Application是创建了SparkContext实例对象的Spark用户,包含了Driver程序: Spark-shell是一个应用程序,因为spark-shell在启动的时候创建了一个SparkContext对象,其名称为sc:Job:和action相对应,每一个action例如count、saveAsTextFile等都会对应一个job实例,该job实例包含多任务

2016-11-11 11:56:39 1729

转载 Scala学习——高阶函数

在函数式编程语言中,函数是“头等公民”,可以像任何其他数据类型一样被传递和操作。因为Scala混合了面向对象和函数式的特性,所以对Scala来说,函数是“头等公民”。作为值的函数import scala.math._val fun = ceil _ // _将ceil方法转成了函数在Scala中,无法直接操纵方法,只能直接操纵函数,所以需要使用_。 fun的类型是(Double)=>Doubl

2016-11-10 15:51:02 1006

原创 scala中下划线应用场景

1、作为“通配符”类似Java中的*。如:import scala.math._2、:_*作为一个整体告诉编译器你希望将某个参数当作参数序列处理!例如val s = sum(1 to 5:_*)就是将1 to 5当作参数序列处理。3、指代一个集合中的每个元素。例如我们要在一个Array a中筛出偶数,并乘以2,可以用以下办法:a.filter(_%2==0).map(2*_)对缓冲数组ArrayBu

2016-11-04 10:24:44 1496

原创 liblinear文本分类开发

训练模型读取语料和词典进行训练Scanner getCorpus = new Scanner(new BufferedInputStream(new FileInputStream(new File(corpus))), "UTF-8"); //语料 Scanner getDict = new Scanner(new BufferedInputStream(new FileInput

2016-11-03 15:00:50 1798 2

es api文档

es api java例子

2015-10-19

离散数学课后习题答案

离散数学课后习题答案 清华版的 离散数学课后习题答案 清华版的

2012-03-05

王爽汇编答案汇编课后习题答案汇编课后习题答案

汇编课后习题答案汇编课后习题答案汇编课后习题答案汇编课后习题答案汇编课后习题答案汇编课后习题答案

2010-01-09

数据结构试卷答案数据结构试卷答案数据结构试卷答案数据结构试卷答案数据结构试卷答案

数据结构试卷答案数据结构试卷答案数据结构试卷答案数据结构试卷答案数据结构试卷答案数据结构试卷答案

2009-05-28

数据结构试卷数据结构试卷数据结构试卷数据结构试卷

数据结构试卷数据结构试卷数据结构试卷数据结构试卷数据结构试卷数据结构试卷数据结构试卷

2009-05-28

深度优先遍历 深度优先遍 深度优先遍

深度优先遍深度优先遍深度优先遍深度优先遍深度优先遍深度优先遍深度优先遍深度优先遍

2009-05-28

操作系统概念课后答案(第七版)

操作系统概念课后答案(第七版)操作系统概念课后答案(第七版)操作系统概念课后答案(第七版)

2009-03-17

数据库系统概论答案数据库系统概论答案

很好很强大很好很强大很好很强大很好很强大很好很强大很好很强大很好很强大很好很强大很好很强大很好很强大很好很强大很好很强大

2009-03-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除