2017年06月_squeue2019

08月 07月 06月 05月 04月

转载【特征工程】3 特征工程技术与方法

引言在之前学习机器学习技术中，很少关注特征工程(Feature Engineering)，然而，单纯学习机器学习的算法流程，可能仍然不会使用这些算法，尤其是应用到实际问题的时候，常常不知道怎么提取特征来建模。特征是机器学习系统的原材料，对最终模型的影响是毋庸置疑的。特征工程的重要意义数据特征会直接影响你使用的预测模型和实现的预测结果。准备和选择的特征越好，则实现的结果

2017-06-26 16:14:53 868

转载【特征工程】2 机器学习中的数据清洗与特征处理综述

背景随着美团交易规模的逐步增大，积累下来的业务数据和交易数据越来越多，这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘，不仅能给美团业务发展方向提供决策支持，也为业务的迭代指明了方向。目前在美团的团购系统中大量地应用到了机器学习和数据挖掘技术，例如个性化推荐、筛选排序、搜索排序、用户建模等等，为公司创造了巨大的价值。本文主要介绍在美团的推荐与个性化团队实践中的数据

2017-06-26 16:03:16 1757

转载实例详解机器学习如何解决问题

前言随着大数据时代的到来，机器学习成为解决问题的一种重要且关键的工具。不管是工业界还是学术界，机器学习都是一个炙手可热的方向，但是学术界和工业界对机器学习的研究各有侧重，学术界侧重于对机器学习理论的研究，工业界侧重于如何用机器学习来解决实际问题。我们结合美团在机器学习上的实践，进行一个实战（InAction）系列的介绍（带“机器学习InAction系列”标签的文章），介绍机器学习在解决工业

2017-06-26 15:59:39 1477 1

转载【特征工程】1 关于推荐系统中的特征工程

在多数数据和机器学习的blog里，特征工程 Feature Engineering 都很少被提到。做模型的或者搞Kaggle比赛的人认为这些搞feature工作繁琐又不重要不如多堆几个模型，想入手实际问题的小朋友又不知道怎么提取feature来建模型。我就用个性化推荐系统做个例子，简单说说特征工程在实际的问题里是怎么做。定义特征工程 Feature Engineering 在一篇K

2017-06-26 14:12:41 902

原创 Eclipse/Myeclipse 如何删除导入的配置文件（例如epf主题文件）

问题eclipse/Myeclipse 如何删除导入的配置文件（例如epf主题文件）解决删除eclipse/Myeclipse的workspace目录下的.metadata文件夹就行了，你所有导入的配置就都没有了。如果选择性删除，需要在.metadata挑选。

2017-06-20 14:51:38 5833

原创 error: package is not relocatable

rpm包安装异常，–prefix 参数不能重定位，安装到另一个目录的原因，error: package is not relocatable$ rpm --install --prefix linuxqq-v1.0.2-beta1.i386.rpmerror: linuxqq is not relocatable 经查找，可以使用下面的命令查看rpm包是否可以重定位，也就是安装到另一个目录。 $ r

2017-06-20 08:46:07 13390

转载 RPM安装命令总结

在 Linux 操作系统下，几乎所有的软件均通过RPM 进行安装、卸载及管理等操作。RPM 的全称为Redhat Package Manager ，是由Redhat 公司提出的，用于管理Linux 下软件包的软件。Linux 安装时，除了几个核心模块以外，其余几乎所有的模块均通过RPM 完成安装。RPM 有五种操作模式，分别为：安装、卸载、升级、查询和验证。1）用RPM安装软件包，最简单的

2017-06-20 00:24:07 26737

原创 Andrew Ng机器学习week9(Anomaly Detection and Recommender Systems)编程习题

Andrew Ng机器学习week9(Anomaly Detection and Recommender Systems)编程习题estimateGaussian.mfunction [mu sigma2] = estimateGaussian(X)%ESTIMATEGAUSSIAN This function estimates the parameters of a %Gaussian di

2017-06-17 20:26:59 1469

原创 Linux下文件分割与合并：split & cat

Linux下文件分割可以通过split命令来实现，文件合并可以通过cat命令。分割可以指定按行数分割和按大小分割两种模式。Linux下文件合并可以通过cat命令来实现，非常简单。在Linux下用split进行文件分割：模式一：指定分割后文件行数对于txt文本文件，可以通过指定分割后文件的行数来进行文件分割。例如：对于文件large_file.txt，可以先通过命令wc -l large_file

2017-06-16 16:47:52 3202

原创 Linux：使用awk命令获取文本的某一行，某一列

1、打印文件的第一列(域) awk '{print $1}' filename2、打印文件的前两列(域) awk '{print $1,$2}' filename3、打印完第一列，然后打印第二列 awk '{print $1 $2}' filename4、打印文本文件的总行数 awk 'END{print

2017-06-15 10:59:18 47411 2

原创数据科学速查表大全（机器学习和深度学习工程师用）

1、KerasSource — https://www.datacamp.com/community/blog/keras-cheat-sheet#gs.DRKeNMs2. NumpySource — https://www.datacamp.com/community/blog/python-numpy-cheat-shee

2017-06-14 18:02:46 2090

转载 Hadoop作业提交分析（五）

经过上一篇的分析，我们知道了Hadoop的作业提交目标是Cluster还是Local，与conf文件夹内的配置文件参数有着密切关系，不仅如此，其它的很多类都跟conf有关，所以提交作业时切记把conf放到你的classpath中。　　因为Configuration是利用当前线程上下文的类加载器来加载资源和文件的，所以这里我们采用动态载入的方式，先添加好对应的依赖库和资源，然后再构建一个

2017-06-14 14:05:43 443

转载 Hadoop作业提交分析（四）

前面我们所分析的部分其实只是Hadoop作业提交的前奏曲，真正的作业提交代码是在MR程序的main里，RunJar在最后会动态调用这个main，在（二）里有说明。我们下面要做的就是要比RunJar更进一步，让作业提交能在编码时就可实现，就像Hadoop Eclipse Plugin那样可以对包含Mapper和Reducer的MR类直接Run on Hadoop。　　一般来说，每个M

2017-06-14 14:04:08 496

转载 Hadoop作业提交分析（三）

通过前面两篇文章的分析，对Hadoop的作业提交流程基本明了了，下面我们就可以开始编写代码模拟这个流程。　　第一步要做的是添加Hadoop的依赖库和配置文件到classpath。最常用的方法就是用一个容器先把各个要添加到classpath的文件或文件夹存储起来，后面再作为类加载器的URL搜索路径。/** * Add a directory or file to cl

2017-06-14 14:01:38 473

转载 Hadoop作业提交分析（二）

上一篇我们分析了bin/hadoop脚本，知道了提交一个Hadoop作业所需要的基本设置以及真正执行任务提交的类。这一篇我们就来分析这个提交任务的类org.apache.hadoop.util.RunJar，看它内部具体又做了些什么。 RunJar是Hadoop中的一个工具类，结构很简单，只有两个方法：main和unJar。我们从main开始一步步分析。 main首

2017-06-14 13:59:00 516

转载 Hadoop作业提交分析（一）

Hadoop作业提交分析（一）bin/hadoop jar xxx.jar mainclass args……　　这样的命令，各位玩Hadoop的估计已经调用过NN次了，每次写好一个Project或对Project做修改后，都必须打个Jar包，然后再用上面的命令提交到Hadoop Cluster上去运行，在开发阶段那是极其繁琐的。程序员是“最懒”的，既然麻烦肯定是要想

2017-06-14 11:57:26 888

转载浅析 Hadoop 中的数据倾斜

最近几次被问到关于数据倾斜的问题，这里找了些资料也结合一些自己的理解. 在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大，但是集群中可能硬件不同，应用的类型不同和切分的数据大小不一致总会导致有部分任务极大的拖慢了整个任务的完成时间，硬件不同就不说了，应用的类型不同其中就比如page rank 或者data mining 里面一些计算，它的每条记录消耗的成本不太一样，这里只讨论关于关系型运算的（一般能用SQL表述的) 数据切分上的数据倾斜问题. Ha

2017-06-13 11:50:59 462

转载漫谈千亿级数据优化实践：数据倾斜（纯干货）

0x00 前言引用数据倾斜是大数据领域绕不开的拦路虎，当你所需处理的数据量到达了上亿甚至是千亿条的时候，数据倾斜将是横在你面前一道巨大的坎。迈的过去，将会海阔天空！迈不过去，就要做好准备：很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。郑重声明：话题比较大，技术要求也比较高，笔者尽最大的能力来写出自己的理解，写的不对和不好的地方大家一起交流。有些例子不是特别严谨，一些小细节对文章理解没有影响，不要太在意。（比如我在算机器内存的时候，就不把Hadoop自身的进程算到使用内存中）

2017-06-13 10:34:46 637

原创 Andrew Ng机器学习week8(Unsupervised Learning)编程习题

Andrew Ng机器学习week8(Unsupervised Learning)编程习题findClosestCentroids.mfunction idx = findClosestCentroids(X, centroids)%FINDCLOSESTCENTROIDS computes the centroid memberships for every example% idx =

2017-06-08 09:13:16 1629

原创 SPSS Modeler决策树算法比较

模型准则 C5.0 CHAID QUEST C&RT 决策列表支持连续目标否是否是否字符预测期拆分类型多重多重二元二元多重预测期选择准则信息度量卡方检验卡方检验和方差分析离差度量统计置信度交互式建立数否是是是是支持bagging

2017-06-06 10:38:32 4064 1

原创 Andrew Ng机器学习week7(Support Vector Machines)编程习题

Andrew Ng机器学习week7(Support Vector Machines)编程习题gaussianKernel.mfunction sim = gaussianKernel(x1, x2, sigma)%RBFKERNEL returns a radial basis function kernel between x1 and x2% sim = gaussianKernel(

2017-06-02 00:34:30 2160

原创 Andrew Ng机器学习week6(Regularized Linear Regression and Bias/Variance)编程习题

Andrew Ng机器学习week6(Regularized Linear Regression and Bias/Variance)编程习题linearRegCostFunction.mfunction [J, grad] = linearRegCostFunction(X, y, theta, lambda)%LINEARREGCOSTFUNCTION Compute cost and gra

2017-06-02 00:30:17 2370