2016年05月_wtq1993

转载 APK文件使用ApkTool解包反编译和重新打包及签名

Windows下只需要下载这两个文件包即可：apktool1.5.2.tar.bz2和apktool-install-windows-r05-ibot.tar.bz2分别解压到到一个方便操作的目录下，然后就可以通过控制台进行操作了【解包/反编译】把要反编译的APK文件放到跟APKTool四个文件的同一个目录（例如C:\APK）；点击“开始”--“运行”，输入cm

2016-05-31 17:56:34 1667

原创 L1 L2范式的详解以及Scikit-learn上基于L1 L2范式正则化的实例

本博文分为两部分，第一部分转自zouxy09的博客http://blog.csdn.net/zouxy09/article/details/24971995 形象的解释基于L1 L2范式的正则化，第二部分是我基于scikit-learn对L1 L2正则简单的应用例子一：L1 L2 正则化介绍监督机器学习问题无非就是“minimizeyour error while regulari

2016-05-31 16:31:01 15874 1

转载机器学习--代码的终结者，我们很快就能像调教狗一样来调教我们的计算机

在发明计算机之前，大部分的实验心理学家都认为大脑是一个不可知的黑盒子。你可以分析一个实验对象的行为，例如，一旦听到铃铛想起，狗便会分泌唾液。但是思想、记忆和情绪这些东西该如何分析呢？这些东西比较神秘莫测，让人难以琢磨，超越了科学研究的范畴。所以这些行为学家们将他们的研究范围限定在刺激和反应、反馈和强化、铃铛声和分泌唾液的关系上面，他们没有去尝试了解心灵意识的内部工作机制，这种情况已经持续了大概 4

2016-05-30 19:45:23 2697

原创使用随机森林和mRMR进行特征选择

算法性能的好坏跟数据是密不可分的，因此找到一组更具代表性的特征子集显得更加重要。在实际项目中，因为有的特征对模型而言是冗余的，它对算法的性能会产生负面影响，此时就需要做特征选择。特征选择的目的就是从一组特征集合中去除冗余或不相关的特征从而达到降维的目的。说到降维，它不仅包括特征选择，还包括了特征提取，而本文主要介绍两种常用的特征选择方法。对于一个包含n个特征的特征集合，搜索空间高达2n−1

2016-05-30 19:03:04 19322

原创 ML数学之矩阵奇异值分解及其应用

PCA的实现一般有两种，一种是用特征值分解去实现的，一种是用奇异值分解去实现的。在上篇文章中便是基于特征值分解的一种解释。特征值和奇异值在大部分人的印象中，往往是停留在纯粹的数学计算中。而且线性代数或者矩阵论里面，也很少讲任何跟特征值与奇异值有关的应用背景。奇异值分解是一个有着很明显的物理意义的一种方法，它可以将一个比较复杂的矩阵用更小更简单的几个子矩阵的相乘来表示，这些小矩阵描述的是矩阵的重要的

2016-05-27 11:39:14 716

转载 Autoencoder与RBM结合使用

AutoEncoder是多层神经网络，其中输入层和输出层表示相同的含义，具有相同的节点数。AutoEncode学习的是一个输入输出相同的“恒等函数”。不过输入和输出相同，使得这个网络的输出没有任何意义。AutoEncoder的意义在于学习的（通常是节点数更少的）中间coder层（最中间的那一层），这一层是输入向量的良好表示。这个过程起到了“降维”的作用。当AutoEncoder只有一个隐含层的时候

2016-05-26 20:39:58 6483 8

原创知觉图-消费者对于某些品牌偏好的形象化表述

什么是知觉图　　知觉图是消费者对某一系列产品或品牌的知觉和偏好的形象化表述。目的是尝试将消费者或潜在消费者的感知用直观的、形象化的图像表达出来。特别是用在产品、产品系列、品牌的定位方面，也会用于描述企业与竞争对手的相对位置方面。　　知觉图显示各品牌在消费者心中印象的差异。　　　　坐标轴代表消费者评价品牌的特征因子，上图上各点对应市场上的主要品牌，它在图中位置代表消费者对其在各

2016-05-25 23:09:58 9589

转载 MDS数据可视化方法

大家一般想到降维，就自然想到一种方法PCA，其实还有一种方法MDS（multidimensional scaling），可以获得样本间的相似性的空间表达。先说说这两种方法的相似处，PCA是把观察的数据用较少的维数来表达，这点上两种方法的相似的；两种方法的不太之处在于，MDS利用的是成对样本间相似性，目的是利用这个信息去构建合适的低维空间，是的样本在此空间的距离和在高维空间中的样本间的相似性尽可

2016-05-25 23:07:14 8189

转载实际项目中的常见算法

Emanuele Viola在Stackexchange上提了这样的一个问题，他希望有人能够列举一些目前软件、硬件中正在使用的算法的实际案例来证明算法的重要性，对于大家可能给到的回答，他还提出了几点要求：1、使用这些算法的软件或者硬件应该是被广泛应用的；2、例子需要具体，并给出确切的系统、算法的引用地址；3、在经典的本科生或者博士的课程中应该教过这些算法或者数据结构；

2016-05-21 10:24:18 1156 1

转载流形学习-高维数据的降维与可视化

1.流形学习的概念流形学习方法(Manifold Learning)，简称流形学习，自2000年在著名的科学杂志《Science》被首次提出以来，已成为信息科学领域的研究热点。在理论和应用上，流形学习方法都具有重要的研究意义。假设数据是均匀采样于一个高维欧氏空间中的低维流形，流形学习就是从高维采样数据中恢复低维流形结构，即找到高维空间中的低维流形，并求出相应的嵌入映射，以实现维数约简或者数

2016-05-19 16:38:51 3628

原创 RBM的形象理解

RBM受限波尔子慢机：无监督的将数据从可视层抽象到隐藏层，将输入层的数据60维（每一唯是实数）抽象到隐藏层120维（每一维为0，1）。其实是将数据的信息量进行了压缩，分别将可视层与隐藏层的数据使用TSNE压缩到3维空间可视化，发现原数据集是聚集在一起的，经过RBM抽象后数据集分堆（拉近了相似的距离，变远了不相似的距离）的存在了。经过这样的抽象使得在接下来对数据分类时变得更加容易，这也就是RBM的

2016-05-19 11:25:08 608

原创 MapReduce应用实例

1.各个部门的总工资如何进行问题分析的?2.各个部门的总工资处理流程是怎样的？3.个部门的人数和平均工资又是如何得到的？4.个部门的人数和平均工资代码如何实现？案例所用包全部下载：链接: http://pan.baidu.com/s/1sjNyDIX 密码:游客，如果您要查看本帖隐藏内容请回复1、环境说明部署节点操作系统为CentOS，防

2016-05-17 19:53:57 5914 10

转载 pandas使用

本文是对pandas官方网站上《10Minutes to pandas》的一个简单的翻译，原文在这里。这篇文章是对pandas的一个简单的介绍，详细的介绍请参考：Cookbook 。习惯上，我们会按下面格式引入所需要的包：一、创建对象可以通过Data Structure Intro Setion 来查看有关该节内容的详细信息。1、可以通过传递一个list对

2016-05-15 20:58:49 777

原创机器学习竞赛技巧

Kaggle 是目前最大的 Data Scientist 聚集地。很多公司会拿出自家的数据并提供奖金，在 Kaggle 上组织数据竞赛。我最近完成了第一次比赛，在 2125 个参赛队伍中排名第 98 位（~ 5%）。因为是第一次参赛，所以对这个成绩我已经很满意了。在 Kaggle 上一次比赛的结果除了排名以外，还会显示的就是 Prize Winner，10% 或是 25% 这三档。所以刚刚接触

2016-05-15 20:56:54 24192 5

转载 TensorFlow简介

在一个完整的工业界语音识别系统里，除了深度学习算法外，还有很多工作是专业领域相关的算法，以及海量数据收集和工程系统架构的搭建。　　这两天发现朋友圈被Google开源深度学习系统TensorFlow的新闻刷屏了。这当然是一个很好的消息，尤其对我们这种用机器学习来解决实际问题的工程师来说更是如此。但同时很多人并不清楚听起来神乎其神的“TensorFlow”到底是什么，有什么意义。　　

2016-05-15 16:50:40 1222

原创机器学习常见面试题

朴素贝叶斯参考[1]事件A和B同时发生的概率为在A发生的情况下发生B或者在B发生的情况下发生AP(A∩B)=P(A)∗P(B|A)=P(B)∗P(A|B)所以有：P(A|B)=P(B|A)∗P(A)P(B)对于给出的待分类项，求解在此项出现的条件下各个目标类别出现的概率，哪个

2016-05-14 22:02:43 3489

转载神经网络Tips 和Tricks

神经网络层数ANN一般有三层或四层，包含一到两个隐含层。每层有10~1000个神经元。实验神经网络可能有5层甚至6层，包含3或4个隐含层，有数百万个神经元，但大多数实际应用仅有3层，因为每增加一层，计算量将呈呈指数级上升。隐藏层单元个数隐藏层单元个数是网络的一个超参数，它依赖于数据集。笼统地讲，数据集分布越复杂，那么网络需要有更强大的拟合能力，而网络的拟合能力是由隐藏层的单元个数决定的

2016-05-14 15:30:57 526

原创 scikit出现Reshape your data either using X.reshape(-1, 1) if your

使用scikit 预测时出现reshape警告时classifier.fit(feature_vector, feature_label) for i in test_vector: print classifier.predict（i).将 i 使用resheap（）得以解决问题，如下所示：classifier.fit(feature_vector, feature_labe

2016-05-08 22:29:38 9935

转载 scikit-learn进行模型参数的选择

这一节我们介绍以下几个内容：我们该怎样选择模型用于监督学习任务？我们该如何选择调整得到最好的模型参数？我们该如何对测试数据进行预测估计？1. 使用整个数据集进行训练和测试这里我们使用手中的整个数据集来训练模型使用同样的数据集来测试模型，然后评估预测的结果和真实结果的差别In [1]:from sklearn

2016-05-08 10:18:57 7282

转载机器学习数据预处理之独热编码（One-Hot Encoding）

机器学习数据预处理之独热编码（One-Hot Encoding）问题由来在很多机器学习任务中，特征并不总是连续值，而有可能是分类值。例如，考虑一下的三个特征：["male", "female"]["from Europe", "from US", "from Asia"]["uses Firefox", "uses Chrome", "us

2016-05-05 17:39:21 7047

转载 Linux中profile、bashrc、bash_profile之间的区别和联系

/etc/profile:此文件为系统的每个用户设置环境信息,当用户第一次登录时,该文件被执行.并从/etc/profile.d目录的配置文件中搜集shell的设置.英文描述为：# /etc/profile# System wide environment and startup programs, for login setup# Functions and aliases

2016-05-05 15:46:29 286

转载 python numpy 快速处理数据

1，广播：对形状不同的数组的运算采取的操作。但是这个输入的数组中必须有一个某轴长度为1，或者缺少了一个维度（这个时候会自动的在shape属性前面补上1）。例如：>>> import numpy as np>>> a=np.arange(10,50,10).reshape(-1,1)>>> a.shape(4, 1)>>> b=np.arange(0,4)>>> barr

2016-05-03 17:51:13 474

转载主成分分析法详解

问题：假设在IR中我们建立的文档-词项矩阵中，有两个词项为“learn”和“study”，在传统的向量空间模型中，认为两者独立。然而从语义的角度来讲，两者是相似的，而且两者出现频率也类似，是不是可以合成为一个特征呢？《模型选择和规则化》谈到的特征选择的问题，就是要剔除的特征主要是和类标签无关的特征。比如“学生的名字”就和他的“成绩”无关，使用的是互信息的方法。而

2016-05-03 15:37:55 19882 2

转载详解协方差矩阵

协方差的定义对于一般的分布，直接代入E(X)之类的就可以计算出来了，但真给你一个具体数值的分布，要计算协方差矩阵，根据这个公式来计算，还真不容易反应过来。网上值得参考的资料也不多，这里用一个例子说明协方差矩阵是怎么计算出来的吧。记住，X、Y是一个列向量，它表示了每种情况下每个样本可能出现的数。比如给定则X表示x轴可能出现的数，Y表示y轴可能出现的。注意这里是关键，给定了4

2016-05-02 21:28:31 719

wtq1993的博客