果然好吃-CSDN博客

原创记一次win10+VM16双机调试的经历

win10加上vmvare16 调试系统搭建经历

2022-07-10 00:20:17 1162 1

原创结构和联合

RE4B

2022-07-07 17:17:41 86

原创 re4b 第15-16-17章

re4b四章读书笔记

2022-07-06 10:25:57 171

原创 RE4B 第14章。循环

RE4B 14章读书笔记

2022-07-05 21:24:53 141

原创 RE4B 13章读书笔记

逆向权威指南读书笔记

2022-07-05 15:11:06 133

转载 java.lang.UnsatisfiedLinkError: org.jblas.NativeBlas.dposv(CII[DII[DII)I

Spark documentation clearly mentions that MLLib uses native libraries, which need to be present on the nodes.for debian/ubuntu use: sudo apt-get install jblas libgfortran3

2015-06-23 14:17:23 675

原创 eclipse 打包jar及提交spark执行步骤

1，export对应的源文件。默认finish即可。2，用解压工具包编辑manifest.mf文件。其中Main-Class: com.example.myapp.MyAppMain //执行main主类Class-Path: mail.jar activation.jar //依赖的jar包，集群中要能找到。编辑好之后

2015-06-19 17:45:23 2161

转载 spark对笛卡尔乘积的优化

import org.apache.spark.rdd._ def combs(rdd:RDD[String]):RDD[(String,String)] = { val count = rdd.count if (rdd.count 2) { sc.makeRDD[(String,String)](Seq.empty) } else if (rdd

2015-03-05 17:02:49 4127 2

转载海量数据面试题举例

数据量的问题是很多面试笔试中经常出现的问题，比如baidu google 腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定最优，如果你有更好的处理方法，欢迎与我讨论。

2014-12-18 15:02:03 350

原创 ubuntu12.04 安装sbt

ubuntu14 手动安装sbt　参见官网配置说明http://www.scala-sbt.org/release/tutorial/Manual-Installation.html 　1、下载sbt通用平台压缩包：sbt-0.13.5.tgz http://www.scala-sbt.org/download.html 　2、建立目录

2014-11-03 09:58:41 671

原创一维搜索技术

首先，我们要qu

2014-09-16 14:36:11 551

原创 Richard 外推法求梯度

richard

2014-09-16 11:32:39 2492

原创数据挖掘面试题

1，请介绍一下SVM,Boosting,LR中任何一个最熟悉的算法的目标函数、优化过程、并行实现、算法收敛性、样本复杂度、适用场景、调参经验。

2014-08-27 14:29:28 615

原创倾斜数据的处理

一般认为，倾斜的数据就是严重不对称的shu'j

2014-08-22 20:41:37 1215 2

原创 R语言学习-线性回归

先来解释几个线性回归的概念。

2014-08-20 09:23:49 1646

转载 Spark性能相关参数配置

Spark性能相关参数配置http://spark-config.readthedocs.org/en/latest/随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 在Spark的官方文档http://spark.apache.org/docs/latest/configuration.html 中提供了这些可配置参数中相当大一部分的说

2014-08-20 09:00:30 694

原创 spark RDD 详解

最近看了一个RDD各种操作的文章，you'xie

2014-08-16 13:14:07 2161

转载转载：spark相关流程解析

对spark的相关流程有概念之后，才能进行相应的调优spark启动流程图

2014-08-14 10:15:55 431

原创 emacs中集成Python

1. 安装YASnippetYASnippet是一个模板自动生成工具，支持C，C++，C#，perl，python等语言。使用非常简单。安装YASnippet在Emacs24版本以上变得非常容易，只需M-x list-package，之后选择YASnippet并且安装即可。之后在.emacs文件中写入===========================================

2014-08-12 13:26:56 724

转载转载：机器学习中的相似性度量

在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement)，这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究，甚至关系到分类的正确与否。　　本文的目的就是对常用的相似性度量作一个总结。本文目录：1.欧氏距离2.曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5.标准化欧氏距离6

2014-08-11 14:37:24 343

转载转载：微博推荐算法简述

本文来自于：http://www.wbrecom.com/：图就不贴了，有兴趣打开原在介绍微博推荐算法之前，我们先聊一聊推荐系统和推荐算法。有这样一些问题：推荐系统适用哪些场景？用来解决什么问题、具有怎样的价值？效果如何衡量？推荐系统诞生很早，但真正被大家所重视，缘起于以”facebook”为代表的社会化网络的兴起和以“淘宝“为代表的电商的繁荣，”选择“的时代已经来临，信息和物品的

2014-08-11 14:29:01 1319

转载转载：一步一步教你怎样给Apache Spark贡献代码

到 Apache Spark 的github 页面内点击 fork 按钮你的github帐户中会出现 spark 这个项目本地电脑上，使用git clone [你的 spark repository 的 github 地址]例如：git clone git@github.com:gchen/spark.git本地得到一个叫 spark 的文件夹4. 进入该文件夹，使用git

2014-08-11 14:06:05 504