自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

孙琨SealSun

邮箱:sunkun201309@163.com

  • 博客(22)
  • 资源 (21)
  • 收藏
  • 关注

转载 【特征工程】3 特征工程技术与方法

引言在之前学习机器学习技术中,很少关注特征工程(Feature Engineering),然而,单纯学习机器学习的算法流程,可能仍然不会使用这些算法,尤其是应用到实际问题的时候,常常不知道怎么提取特征来建模。 特征是机器学习系统的原材料,对最终模型的影响是毋庸置疑的。特征工程的重要意义数据特征会直接影响你使用的预测模型和实现的预测结果。准备和选择的特征越好,则实现的结果

2017-06-26 16:14:53 868

转载 【特征工程】2 机器学习中的数据清洗与特征处理综述

背景随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘,不仅能给美团业务发展方向提供决策支持,也为业务的迭代指明了方向。目前在美团的团购系统中大量地应用到了机器学习和数据挖掘技术,例如个性化推荐、筛选排序、搜索排序、用户建模等等,为公司创造了巨大的价值。本文主要介绍在美团的推荐与个性化团队实践中的数据

2017-06-26 16:03:16 1757

转载 实例详解机器学习如何解决问题

前言随着大数据时代的到来,机器学习成为解决问题的一种重要且关键的工具。不管是工业界还是学术界,机器学习都是一个炙手可热的方向,但是学术界和工业界对机器学习的研究各有侧重,学术界侧重于对机器学习理论的研究,工业界侧重于如何用机器学习来解决实际问题。我们结合美团在机器学习上的实践,进行一个实战(InAction)系列的介绍(带“机器学习InAction系列”标签的文章),介绍机器学习在解决工业

2017-06-26 15:59:39 1477 1

转载 【特征工程】1 关于推荐系统中的特征工程

在多数数据和机器学习的blog里,特征工程 Feature Engineering 都很少被提到。做模型的或者搞Kaggle比赛的人认为这些搞feature工作繁琐又不重要不如多堆几个模型,想入手实际问题的小朋友又不知道怎么提取feature来建模型。我就用个性化推荐系统做个例子,简单说说特征工程在实际的问题里是怎么做。定义特征工程 Feature Engineering 在一篇K

2017-06-26 14:12:41 902

原创 Eclipse/Myeclipse 如何删除导入的配置文件(例如epf主题文件)

问题eclipse/Myeclipse 如何删除导入的配置文件(例如epf主题文件)解决删除eclipse/Myeclipse的workspace目录下的.metadata文件夹就行了,你所有导入的配置就都没有了。如果选择性删除,需要在.metadata挑选。

2017-06-20 14:51:38 5833

原创 error: package is not relocatable

rpm包安装异常,–prefix 参数不能重定位,安装到另一个目录的原因,error: package is not relocatable$ rpm --install --prefix linuxqq-v1.0.2-beta1.i386.rpmerror: linuxqq is not relocatable 经查找,可以使用下面的命令查看rpm包是否可以重定位,也就是安装到另一个目录。 $ r

2017-06-20 08:46:07 13390

转载 RPM安装命令总结

在 Linux 操作系统下,几乎所有的软件均通过RPM 进行安装、卸载及管理等操作。RPM 的全称为Redhat Package Manager ,是由Redhat 公司提出的,用于管理Linux 下软件包的软件。Linux 安装时,除了几个核心模块以外,其余几乎所有的模块均通过RPM 完成安装。RPM 有五种操作模式,分别为:安装、卸载、升级、查询和验证。1)用RPM安装软件包,最简单的

2017-06-20 00:24:07 26737

原创 Andrew Ng机器学习week9(Anomaly Detection and Recommender Systems)编程习题

Andrew Ng机器学习week9(Anomaly Detection and Recommender Systems)编程习题estimateGaussian.mfunction [mu sigma2] = estimateGaussian(X)%ESTIMATEGAUSSIAN This function estimates the parameters of a %Gaussian di

2017-06-17 20:26:59 1469

原创 Linux下文件分割与合并:split & cat

Linux下文件分割可以通过split命令来实现,文件合并可以通过cat命令。分割可以指定按行数分割和按大小分割两种模式。Linux下文件合并可以通过cat命令来实现,非常简单。在Linux下用split进行文件分割:模式一:指定分割后文件行数对于txt文本文件,可以通过指定分割后文件的行数来进行文件分割。 例如:对于文件large_file.txt,可以先通过命令wc -l large_file

2017-06-16 16:47:52 3202

原创 Linux:使用awk命令获取文本的某一行,某一列

1、打印文件的第一列(域) awk '{print $1}' filename2、打印文件的前两列(域) awk '{print $1,$2}' filename3、打印完第一列,然后打印第二列 awk '{print $1 $2}' filename4、打印文本文件的总行数 awk 'END{print

2017-06-15 10:59:18 47411 2

原创 数据科学速查表大全(机器学习和深度学习工程师用)

1、KerasSource — https://www.datacamp.com/community/blog/keras-cheat-sheet#gs.DRKeNMs2. NumpySource — https://www.datacamp.com/community/blog/python-numpy-cheat-shee

2017-06-14 18:02:46 2090

转载 Hadoop作业提交分析(五)

经过上一篇的分析,我们知道了Hadoop的作业提交目标是Cluster还是Local,与conf文件夹内的配置文件参数有着密切关系,不仅如此,其它的很多类都跟conf有关,所以提交作业时切记把conf放到你的classpath中。  因为Configuration是利用当前线程上下文的类加载器来加载资源和文件的,所以这里我们采用动态载入的方式,先添加好对应的依赖库和资源,然后再构建一个

2017-06-14 14:05:43 443

转载 Hadoop作业提交分析(四)

前面我们所分析的部分其实只是Hadoop作业提交的前奏曲,真正的作业提交代码是在MR程序的main里,RunJar在最后会动态调用这个main,在(二)里有说明。我们下面要做的就是要比RunJar更进一步,让作业提交能在编码时就可实现,就像Hadoop Eclipse Plugin那样可以对包含Mapper和Reducer的MR类直接Run on Hadoop。  一般来说,每个M

2017-06-14 14:04:08 496

转载 Hadoop作业提交分析(三)

通过前面两篇文章的分析,对Hadoop的作业提交流程基本明了了,下面我们就可以开始编写代码模拟这个流程。  第一步要做的是添加Hadoop的依赖库和配置文件到classpath。最常用的方法就是用一个容器先把各个要添加到classpath的文件或文件夹存储起来,后面再作为类加载器的URL搜索路径。/** * Add a directory or file to cl

2017-06-14 14:01:38 473

转载 Hadoop作业提交分析(二)

上一篇我们分析了bin/hadoop脚本,知道了提交一个Hadoop作业所需要的基本设置以及真正执行任务提交的类。这一篇我们就来分析这个提交任务的类org.apache.hadoop.util.RunJar,看它内部具体又做了些什么。     RunJar是Hadoop中的一个工具类,结构很简单,只有两个方法:main和unJar。我们从main开始一步步分析。     main首

2017-06-14 13:59:00 516

转载 Hadoop作业提交分析(一)

Hadoop作业提交分析(一)bin/hadoop jar xxx.jar mainclass args……  这样的命令,各位玩Hadoop的估计已经调用过NN次了,每次写好一个Project或对Project做修改后,都必须打个Jar包,然后再用上面的命令提交到Hadoop Cluster上去运行,在开发阶段那是极其繁琐的。程序员是“最懒”的,既然麻烦肯定是要想

2017-06-14 11:57:26 888

转载 浅析 Hadoop 中的数据倾斜

最近几次被问到关于数据倾斜的问题,这里找了些资料也结合一些自己的理解. 在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同,应用的类型不同和切分的数据大小不一致总会导致有部分任务极大的拖慢了整个任务的完成时间,硬件不同就不说了,应用的类型不同其中就比如page rank 或者data mining 里面一些计算,它的每条记录消耗的成本不太一样,这里只讨论关于关系型运算的(一般能用SQL表述的) 数据切分上的数据倾斜问题. Ha

2017-06-13 11:50:59 462

转载 漫谈千亿级数据优化实践:数据倾斜(纯干货)

0x00 前言 引用数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。 迈的过去,将会海阔天空!迈不过去,就要做好准备:很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。郑重声明: 话题比较大,技术要求也比较高,笔者尽最大的能力来写出自己的理解,写的不对和不好的地方大家一起交流。有些例子不是特别严谨,一些小细节对文章理解没有影响,不要太在意。(比如我在算机器内存的时候,就不把Hadoop自身的进程算到使用内存中)

2017-06-13 10:34:46 637

原创 Andrew Ng机器学习week8(Unsupervised Learning)编程习题

Andrew Ng机器学习week8(Unsupervised Learning)编程习题findClosestCentroids.mfunction idx = findClosestCentroids(X, centroids)%FINDCLOSESTCENTROIDS computes the centroid memberships for every example% idx =

2017-06-08 09:13:16 1629

原创 SPSS Modeler决策树算法比较

模型准则 C5.0 CHAID QUEST C&RT 决策列表 支持连续目标 否 是 否 是 否 字符预测期拆分类型 多重 多重 二元 二元 多重 预测期选择准则 信息度量 卡方检验 卡方检验和方差分析 离差度量 统计置信度 交互式建立数 否 是 是 是 是 支持bagging

2017-06-06 10:38:32 4064 1

原创 Andrew Ng机器学习week7(Support Vector Machines)编程习题

Andrew Ng机器学习week7(Support Vector Machines)编程习题gaussianKernel.mfunction sim = gaussianKernel(x1, x2, sigma)%RBFKERNEL returns a radial basis function kernel between x1 and x2% sim = gaussianKernel(

2017-06-02 00:34:30 2160

原创 Andrew Ng机器学习week6(Regularized Linear Regression and Bias/Variance)编程习题

Andrew Ng机器学习week6(Regularized Linear Regression and Bias/Variance)编程习题linearRegCostFunction.mfunction [J, grad] = linearRegCostFunction(X, y, theta, lambda)%LINEARREGCOSTFUNCTION Compute cost and gra

2017-06-02 00:30:17 2370

hadoop-0.20.2-cdh3u4.tar.gz

hadoop-0.20.2-cdh3u4.tar.gz。零积分。

2017-04-11

eclipse-inst-win64.exe eclipse安装引导软件

eclipse安装引导软件。Windows64位下installer。免积分。

2017-04-11

Hyperledger fabric towards scalable blockchain for business

介绍超级账本(HyperLedger)的资料,并对比了与其它几大技术体系的长短之处。零积分。

2016-11-01

面向中国资本市场应用的分布式总账白皮书

ChinaLedge联盟发布的《面向中国资本市场应用的分布式总账白皮书》。免积分

2016-11-01

SciTE安装包,用于ruby

2015年9月30更新的。用于快速写ruby。解压后,找到exe文件,双击即可运行。

2015-09-30

ruby安装包

2015年9月30日更新的ruby安装包,用于windows 64位下。

2015-09-30

Java解惑.chm

Java解惑.chm,免积分。亲,好用,记得给好评哦

2014-01-10

Java API官方文档中文版.CHM

Java API官方文档中文版.CHM,免积分。亲,好用,记得给好评哦

2014-01-10

Java编程思想第四版完整中文高清版PDF

Java编程思想第四版完整中文高清版PDF,免积分,亲,好用,记得给好评哦

2014-01-09

呕心沥血整理的蓝桥杯2014年以前java历年真题及答案

呕心沥血整理的蓝桥杯2014年以前java历年真题及答案,目前自己已知最详细的。零积分,亲,若好用,记得给好评哦

2014-01-09

Java课程设计案例精编[专著]/张广彬,孟红蕊,张永宝编著完整源代码

Java课程设计案例精编[专著]/张广彬,孟红蕊,张永宝编著 零积分 第3章 类和对象 第4章 网页浏览器开发 第5章 蜘蛛纸牌 第6章 吃豆子游戏 第7章 基于多线程的端口扫描器 第8章 Java聊天室 第9章 宝石连连看游戏 第10章 中国象棋对弈系统 第11章 学生管理信息系统

2014-01-08

C++ Primer第三版(中文版+完全详细目录)

最经典的C++入门与进阶书籍,是所有学习过C++的人,必定看过的一本书,其价值不言而喻。上传的这本中文版,加上了自己所加的目录,很详细。不是扫描版,是正规的PDF书籍

2013-08-12

C++Builder数据库开发经典案例解析+(完整配套详细源码)

不同于其它下载内容,此资源是其完整配套光盘资源。适用于数据库实例开发与课程设计。很好的学习资料

2013-06-29

双人版贪吃蛇

该双人版贪吃蛇是用C++语言所写,利用头文件绘制图形,代码量很小,言简意赅,基本实现了所有的贪吃蛇双人版功能。适合学习

2013-06-29

钟表模拟程序(表针形式)

运用#inlcude"graphics.h",基本实现了钟表模拟程序(表针形式),很具学习效果。在时间差方面有待改进

2013-05-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除