漠小浅-CSDN博客

原创面试

郭元京东：outOfMemory和stackOverFlow1.stackOverFlow每当java程序启动一个新的线程时,java虚拟机会为他分配一个栈,java栈以帧为单位保持线程运行状态;当线程调用一个方法时,jvm压入一个新的栈帧到这个线程的栈中,只要这个方法还没返回,这个帧就存在.如果方法的嵌套调用层次太多(如递归调用),随着java栈中的帧的增多,最终导致这个

2017-08-17 16:35:04 597 6

原创性能优化

spark core部分一：Spark性能优化核心基石1，Spark是采用Master-slaves的模式进行资源管理和任务执行的管理： a) 资源管理：Master-Workers，在一台机器上可以有多个Workers； b) 任务执行：Driver-Executors，当在一台机器上分配多个Workers的时候，那么默认情况下每个Worker都会为当前运行的

2016-07-25 10:01:40 977

原创 shuffle

一，到底什么事Shuffle？ Shuffle中文翻译为“洗牌”，需要Shuffle的关键性原因是某种具有共同特征的数据需要最终汇聚到一个计算节点上进行计算。二，Shuffle可能面临的问题？运行Task的时候才会产生Shuffle（Shuffle已经融化在Spark的算子中了）。1，数据量非常大；2，数据如何分类，即如何Partition，Hash、Sort、钨丝计划

2016-07-18 10:16:15 851

原创 spark 评估指标

评估指标1 Classification model evaluation1.1 二元分类 1.1.1阈值调整1.2 Multiclassclassification 1.2.1 Label based metrics1.3 Muitilabel classification1.4 Ranking systems2 Regression mo

2016-07-16 16:06:03 6762

原创 sparkStreaming_电商案例

数据生成：package com.java__SparkStreaming;import kafka.javaapi.producer.Producer;import kafka.producer.KeyedMessage;import kafka.producer.ProducerConfig;import java.util.*;/** * Created by Ad

2016-07-12 10:02:45 2265

原创协同过滤算法案例

1,，实现User-based协同过滤算法：数据格式：【用户id】，【项目id】，【评分】 2，实现Item-based协同过滤算法 3，基于奇异值分解实现Model-based协同过滤算法 4，基于Spark的MLlib实现协同过滤算法4.1 MLlib的推荐算法工具 org.spache.spark.

2016-06-08 10:00:10 3903

原创推荐系统_全

推荐系统的分类常见评测标准http://blog.csdn.net/u011263983/article/details/51544495相似度1）同现相似度 2）欧氏距离相似度3）余弦相似度4）秩相关系数相似度5）曼哈顿距离相似度6）对数似然相似度常见推荐系统算法关联规则； Apriori

2016-05-31 22:26:48 12122

原创推荐系统_推荐系统的常用评测指标

为了评估推荐算法的好坏需要各方面的评估指标。准确率准确率就是最终的推荐列表中有多少是推荐对了的。召回率召回率就是推荐对了的占全集的多少。下图直观地描述了准确率和召回率的含义覆盖率覆盖率表示推荐的物品占了物品全集空间的多大比例。新颖度新颖度是为了推荐长尾区间的物品。用推荐列表中物品的平均流行度度量推荐结果的新颖度。如果推荐出的物品都很热门，说明

2016-05-31 11:54:28 6219

原创推荐系统_随记

个性化推荐的成功应用需要两个条件。第一是存在信息过载，因为如果用户可以很容易地从所有物品中找到喜欢的物品，就不需要个性化推荐了。第二是用户大部分时候没有特别明确的需求，因为用户如果有明确的需求，可以直接通过搜索引擎找到感兴趣的物品。

2016-05-31 10:03:18 776

原创推荐系统_LFM和基于邻域(如UserCF、ItemCF)的方法的比较

LFM是一种基于机器学习的方法，具有比较好的理论基础。这个方法和基于邻域的方法（比如UserCF、ItemCF）相比，各有优缺点。下面将从不同的方面对比LFM和基于邻域的方法。理论基础 LFM具有比较好的理论基础，他是一种学习方法，通过优化一个设定的指标建立最优的模型。基于邻域的方法更多是一种基于统计的方法，并没有学习过程。离线计算的空间复杂度

2016-05-30 16:57:39 4910

原创推荐系统_基于内容的推荐

基于内容的推荐基于标签的推荐隐语义模型

2016-05-26 17:44:50 15259 2

原创推荐系统_关联规则挖掘

购物篮分析（关联规则挖掘，频繁规则挖掘）AprioriFPGrowthPTPGrowth

2016-05-26 10:39:23 4692

原创推荐系统_itemCF和userCF

推荐系统的分类：基于应用领域分类：电子商务推荐，社交好友推荐，搜索引擎推荐，信息内容推荐基于设计思想：基于协同过滤的推荐，基于内容的推荐，基于知识的推荐，混合推荐基于使用何种数据：基于用户行为数据的推荐，基于用户标签的推荐，基于社交网络数据，基于上下文信息（时间上下文，地点上下文等等）协同过滤：协同过滤的基本思想（基于用户）：协同过滤一般是在海量的用户中发掘

2016-05-25 21:25:07 21512

原创 spark_pom.xml

xml version="1.0" encoding="UTF-8"?>xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4

2016-05-25 11:24:42 2317

原创 sparkStreaming

速查手册：1，读取socket端数据 JavaReceiverInputDStream lines = jssc.socketTextStream("master", 9999);2，监控HDFS文件系统（只能检测文件夹下面新增的文件，对文件内容的追加和删除没有作用） JavaDStream lines = jssc.textFileStream("hdfs://Master:90

2016-05-16 18:38:24 1926

原创 javaWeb学习笔记-----3 javascript

1，javascript的简介：是基于对象和事件驱动的语言，应用与客户端-基于对象：提供好了很多对象，可以直接拿过来使用-事件驱动：html做网页静态效果，javascript动态效果-客户端：专门指的是浏览器js的组成：三部分组成（1）ECMAscript-ECMA：欧洲计算机协会-由ECMA组织制定的js的语法，语句。。。。（2）BOM-broswer

2015-12-25 16:12:16 563

原创 javaWeb学习笔记-----2css

css1、css的简介：*css：层叠样式表** 层叠：一层一层的**样式表：很多的属性和属性值*使页面显示效果更加好*css将网页内容和显示样式进行分离，提高了显示功能。2、css和html的结合方式（四种结合方式）（*************************************）（1）在每个html标签上面都有一个属性style，把css和html结

2015-12-25 16:01:44 611

原创 javaWeb学习笔记----1 HTML

html的规范1、一个html文件开始标签和结束的标签 2、html包含两部分内容（1）设置相关信息（2）显示在页面的内容都写在body里面3、html的标签有开始标签，也要有结束标签-4,、html的代码不区分大小写的5、有些标签，没有结束标签，在标签内结束-比如换行 html的操作思想（*************）网页中有许多数据，不同的数据可

2015-12-25 00:11:19 575

原创条件概率全概率贝叶斯公式

条件概率：定义：已知某个事件A发生的条件下，另一个事件B发生的概率称为条件概率。记为P(B|A)计算方法：P(B|A) = P(AB) / P(A)全概率：全概率公式为概率论中的重要公式，它将对一复杂事件A的概率求解问题转化为了在不同情况下发生的简单事件的概率的求和问题。内容：如果事件B1、B2、B3…Bn 构成一个完备事件组，即它们两两互不相容，其和为全集

2015-12-16 23:36:00 4671

原创《Apache Spark源码剖析》学习笔记之Spark作业提交

1.作业提交以foreach函数开始：foreach-------------------------------------------------------------------------------------------/** * Applies a function f to all elements of this RDD. */def foreach(

2015-12-07 22:10:57 766

原创《apache spark源码剖析》学习笔记之SparkContext

SparkContext的初始化综述SparkContext是进行Spark应用开发的主要接口，是Spark上层应用与底层应用实现的中转站。SparkContext在初始化过程中，主要涉及以下内容：SparkEnvDAGSchedulerTaskSchedulerSchedulerBackendWebUISparkContext的构造函数中最重要的入参是SparkConf。

2015-12-07 21:29:53 911

u011263983的博客