2016年06月_尽拣寒枝不肯栖

转载常见的几种最优化方法

阅读目录1. 梯度下降法（Gradient Descent）2. 牛顿法和拟牛顿法（Newton's method & Quasi-Newton Methods）3. 共轭梯度法（Conjugate Gradient）4. 启发式优化方法 5. 解决约束优化问题——拉格朗日乘数法　　我们每个人都会在我们的生活或者工作中遇到各种各样的最优化问题，比如每个企业和个人

2016-06-30 16:00:08 3332

转载支持向量机通俗导论（理解SVM的三层境界）

支持向量机通俗导论（理解SVM的三层境界）作者：July 。致谢：pluskid、白石、JerryLead。说明：本文最初写于2012年6月，而后不断反反复复修改&优化，修改次数达上百次，最后修改于2016年3月。前言动笔写这个支持向量机(support vector machine)是费了不少劲和

2016-06-30 00:16:26 880

原创 MLiA Logistic回归

逻辑回归计算过程是通过数据计算各数据之间均值回归线（表述方式不对，方便理解）。然后根据测试数据，测试逻辑回归效果，计算错误率。代码如下：#-*- coding: UTF-8 -*-__author__ = 'Administrator'from numpy import *import numpy as np#加载数据def loadDataSet(): dataM

2016-06-24 10:12:34 348

原创 MLiA 贝叶斯分类总结及决策树的一个小问题

昨天睡觉时候突然思考了下朴素贝叶斯分类方法，发现之前理解不透，突然搞不明白怎么分类的了，今天又看了看，才算大概了解了，比如是垃圾邮件分类。1.训练集：首先对垃圾邮件和非垃圾邮件进行分词，并记录邮件分类。此处词汇集合用来记录所有训练数据的所有词汇，然后对于每封邮件去判断集合中的词是否在当前邮件出现，形成一个矩阵。2.分别计算垃圾邮件和非垃圾邮件中集合中的每个词分别出现次数，出现概率。训练阶段

2016-06-23 11:38:02 664

原创 MLiA Logistic Regression对上一篇转载文章的理解

完整看了洞庭小哥的文章，大概看懂了一部分，现在把心得记录下来。1.逻辑回归此处只是讲解线性回归，是个直线图像。函数使用的sigmoid函数，sigmoid函数近似是个梯度跳跃函数，取值0，1。2.对于大量样本，分类简化为二分类问题，即所有样本分两类：1，0。此时每个样本都有一定概率落在0或者1 。我们首先写出线性回归函数，系数为未知数theta。这条直线即为sigmoid函数中的x值，由此

2016-06-23 00:02:27 294

转载 MLiA 逻辑回归求解回归函数的系数中梯度下降法及其向量化

作者：洞庭之子微博：洞庭之子-Bing（2013年11月）PDF下载地址：http://download.csdn.net/detail/lewsn2008/65474631.引言看了Stanford的Andrew Ng老师的机器学习公开课中关于Logistic Regression的讲解，然后又看了《机器学习实战》中的LogisticRegress

2016-06-22 23:49:40 2895

原创 MLiA 朴素贝叶斯

朴素贝叶斯的朴素：不考虑词条之间的关系，即我们认为词条之间相互独立。根据RSS源数据分析预测结果准确率（文章中讲的是具体的案例，其实没啥区别）,直接上代码：#-*- coding: UTF-8 -*-__author__ = 'Administrator'import numpy as np #为了导入numpy和math函数中的共有方法log10from numpy import

2016-06-22 15:13:29 588

原创 RSS

机器学习有一章节讲朴素贝叶斯从广告中获取地狱倾向，数据源是RSS源，里用到一个工具是Universal Feed Parser（python中最常用的RSS程序库）。下载下来，直接在目录下python setup.py install安装即可。此时，我还是不太理解RSS这个东西，然后做了下了解。简易信息聚合（也叫聚合内容）是一种RSS基于XML标准，在互联网上被广泛采用的内容包装和投递协议

2016-06-22 10:30:58 452

转载 Java写的自动抢购红米note手机(2016/4/6 米粉节)

1：使用Maven模板构建一个项目切换到工作目C:\workshop下，输入mvn archetype:generate -DgroupId=com.yiibai -DartifactId=NumberGenerator -DarchetypeArtifactId=maven-archetype-quickstart -DinteractiveMode=false2：修改pom

2016-06-22 10:10:50 1986 1

原创拉普拉斯平滑

为什么要做平滑处理?　　零概率问题，就是在计算实例的概率时，如果某个量x，在观察样本库（训练集）中没有出现过，会导致整个实例的概率结果是0。在文本分类的问题中，当一个词语没有在训练样本中出现，该词语调概率为0，使用连乘计算文本出现概率时也为0。这是不合理的，不能因为一个事件没有观察到就武断的认为该事件的概率是0。拉普拉斯的理论支撑　　为了解决零概率的问题，法国数学家拉普拉斯

2016-06-21 10:41:57 921

发表于2015-06-05 20:57| 27311次阅读| 来源http://blog.terminal.com| 2 条评论| 作者Zachary Chase LiptonLSTM递归神经网络RNN长短期记忆摘要：根据深度学习三大牛的介绍，LSTM网络已被证明比传统的RNNs更加有效。本文由UCSD研究机器学习理论和应用的博士生Zachary Chase Lipton撰写，用浅显的语言解释了卷

2016-06-20 23:18:58 754

原创 IPython & Cython

IPython是python的一个shell，相对于默认的shell，他有一系列优点，ipython 是一个 python 的交互式 shell，比默认的python shell 好用得多，支持变量自动补全，自动缩进，支持 bash shell 命令，内置了许多很有用的功能和函数。

2016-06-20 22:24:44 765

翻译整理深度学习资料

1.15年值得深度学习的5家初创公司作为人工智能的一种类型，2014年对深度学习来说意义重大。谷歌，Twitter，还有雅虎都收购了深度学习领域的初创公司，它们继承了被称为人工神经网络的培训系统，从音频、图像、以及其他输入项中收集信息，然后给系统呈现新的信息并收到有关它的推论得到的信息作为响应。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式

2016-06-20 00:08:11 1551

转载 pycharm使用一些知识

2016-06-18 13:38:59 6555

转载 python 列表推导式----轻量级循环

列表推导式（list comprehension）是利用其他列表创建新列表（类似于数学术语中的集合推导式）的一种方法。它的工作方式类似于for循环，也很简单：In [39]: [x*x for x in range(10)]Out[39]: [0, 1, 4, 9, 16, 25, 36, 49, 64, 81]　　如果只想打印出那些能被3整除的平方数，只需要通过添加一个

2016-06-18 13:00:17 302

原创 MLiA ID3 DecisionTree

说下基本理解：1.信息增益，比如一个数据集有两个特征，A,B,C,D，A与BCD等混乱程度越高，就代表A特征分类性越高。可以这样理解，如果对于A特征值为‘是’和‘否’，而A的是否和其他所有的特征完全吻合，即如果A为是，那么其他所有特征都为是或否中的一个*，而当A为否时，其他特征值均为*外的另一个，那么A特征完全没有代表性，即无法区分分类，此时信息增益为0。因此说信息增益越大，即熵越大，则分类效

2016-06-17 20:33:53 299

原创 python对象释放顺序

看了一篇文章，里面提到一个python初始化对象及释放对象的顺序问题，其人测试的饶有兴致，我看了看，发现是随机释放顺序，虽然没什么用，但是挺有意思的。最近在学习python，看的是《简明python教程》，写的很是通俗易懂。在一个类和对象的变量的例子中，看到代码运行结果突然想到在python中对象的生命周期的问题，代码运行结果： #!/usr/bin/env pyt

2016-06-16 23:20:26 2681 1

原创信息增益

信息增益（Kullback–Leibler divergence）又称information divergence，information gain，relative entropy 或者KLIC。在概率论和信息论中，信息增益是非对称的，用以度量两种概率分布P和Q的差异。信息增益描述了当使用Q进行编码时，再使用P进行编码的差异。通常P代表样本或观察值的分布，也有可能是精确计算的理论分布。Q

2016-06-16 22:13:31 567

原创 windows git操作

今天在此在windows下git push我的pycharm-professional工具。git时碰到一些问题，解决后又有些深入理解：今天碰到的问题是不知道为什么我的ssh公钥不能用了，于是重新生成了一边ssh pubkey 就可以了。1.生成ssh本地公钥，在自己的github上记录公钥。2.本地如果还没有git仓库，那就git init；如果有的话就不需要git init了。

2016-06-16 00:59:02 238

原创 MLiA knn

看了knn算法，写些大概思路：对于数据集，其中一部分是测试数据（m个），一部分是训练数据（n个）。测试数据相对少，对于测试数据中的每条记录，计算其与训练数据中每条记录的距离，然后排序。对于m中的每条记录，会得到n个距离值，对这n个距离排序，取前k个值作为最相似的数据。然后对这K个数据查看其分类，分类最多的类别即为m中的该条记录的分类。书中有三个例子：1.电影动作片，爱情片分类2

2016-06-15 14:43:28 521

转载自包含

说明：简单的说，自包含就是任意一个头文件均可独立编译。如果一个文件包含某个头文件，还要包含另外一个头文件才能工作的话，就会增加交流障碍，给这个头文件的用户增添不必要的负担。示例：如果a.h不是自包含的，需要包含b.h才能编译，会带来的危害：每个使用a.h头文件的.c文件，为了让引入的a.h的内容编译通过，都要包含额外的头文件b.h。额外的头文件b.h必须在a.h之前进行包含，这在包

2016-06-15 14:15:58 1079

转载 pycharm快捷键

Alt+Enter 自动添加包Ctrl+t SVN更新Ctrl+k SVN提交Ctrl + / 注释(取消注释)选择的行Ctrl+Shift+F 高级查找Ctrl+Enter 补全Shift + Enter 开始新行TAB Shift+TAB 缩进/取消缩进所选择的行Ctrl + Alt + I 自动缩进行Ctrl + Y 删

2016-06-15 00:42:56 255

转载 MACHINE LEARNING IN ACTION KNN

1：算法简单描述给定训练数据样本和标签，对于某测试的一个样本数据，选择距离其最近的k个训练样本，这k个训练样本中所属类别最多的类即为该测试样本的预测标签。简称kNN。通常k是不大于20的整数，这里的距离一般是欧式距离。2：Python代码实现创建一个kNN.py文件，将核心代码放在里面了。(1) 创建数据[python] v

2016-06-15 00:23:20 310

转载 python列表数组字典

创建列表sample_list = ['a',1,('a','b')]Python 列表操作sample_list = ['a','b',0,1,3]得到列表中的某一个值value_start = sample_list[0]end_value = sample_list[-1]删除列表的第一个值del sample_list[0]

2016-06-15 00:07:10 6839

转载 python中type和instance

和Python的new-style class有关。相关链接 http://www.python.org/doc/newstyle/以下代码在Python2.5中执行：>>> class A:... pass... >>> a = A()>>> class B:... pass... >>> b = B()>>> type(a) is type(b)True>>

2016-06-14 23:48:14 6536 1

原创 python安装NumPy

我自己电脑安装了python2和python3，所以不能直接用pip install或者easy_install。应该：python2 -m pip install -U pippython2 -m pip install numpy

2016-06-14 15:18:03 691

转载 keep

十一长假结束，胡吃海塞过后，小编正处在深深的焦虑当中：要长胖了——不知道大家是不是也有相似的苦恼呢。小编发现，去年中国八个省份的人均GDP突破一万美元，健康问题如影随形，比如肥胖人群比例急速扩大。人们对健身话题的关注度和投入度越来越高。在创业之前，王宁用百度指数查询“健身”、“瑜伽”等关键词热度，发现从2006年到2014年的平缓增长被骤然打破——14到15年，一年的时间翻

2016-06-12 23:02:47 1352

转载 Encoder-Decoder model couplet

2016-06-12 21:52:46 1178

转载 hadoop操作mysql

前以前帖子介绍，怎样读取文本数据源和多个数据源的合并：http://www.cnblogs.com/liqizhou/archive/2012/05/15/2501835.html这一个博客介绍一下MapReduce怎样读取关系数据库的数据，选择的关系数据库为MySql，因为它是开源的软件，所以大家用的比较多。以前上学的时候就没有用过开源的软件，直接用盗版，也相当与免费，且比开源好用，例如

2016-06-10 16:33:52 792

转载神经网络

概述以监督学习为例，假设我们有训练样本集，那么神经网络算法能够提供一种复杂且非线性的假设模型，它具有参数，可以以此参数来拟合我们的数据。为了描述神经网络，我们先从最简单的神经网络讲起，这个神经网络仅由一个“神经元”构成，以下即是这个“神经元”的图示：这个“神经元”是一个以及截距为输入值的运算单元，其输出为，其中函数被称为“激活函

2016-06-10 16:27:42 322

转载 github常见操作和常见错误！错误提示：fatal: remote origin already exists

如果输入$ git remote add origingit@github.com:djqiang（github帐号名）/gitdemo（项目名）.git 提示出错信息：fatal: remote origin already exists. 解决办法如下： 1、先输入$ git remote rm origin 2、再输入$ git remote add

2016-06-10 16:26:45 340

转载 random forest

机器学习算法复习--随机森林这里是截取曾经发表的http://www.cnblogs.com/wentingtu/archive/2011/12/13/2286212.html中一些内容基础内容：这里只是准备简单谈谈基础的内容，主要参考一下别人的文章，对于随机森林与GBDT，有两个地方比较重要，首先是information gain，其次是决策树。这里特别推荐Andrew Moor

2016-06-09 16:21:42 1599

转载 GBDT

GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力（generalization)较强的算法。近些年更因为被用于搜索排序的机器学习模型而引起大家关注。

2016-06-09 16:16:29 269

转载小米3内存不足问题

一直用的小米手机，最近发现提示内存不足（只有316M了），要求卸载一些应用程序，但是自己也才装了几十个应用程序，并且每一个都不想卸载，怎么办呢，还是先想办法清理垃圾吧。小米手机系统存储空间不足清理方法工具/原料小米手机MIUI V5方法/步骤11文件管理——文件清理——开始扫描，扫描完——一键清理。或者安全中心——垃圾清理————开始扫描，扫描完——一键清理。小米手机系统存储空间不足清理方法2清理

2016-06-09 00:42:17 2974

转载 weka使用

Weka新手文章（一）收藏数据仓库，数据分析，不涉及商业方面的高层决策之用，故本篇文章只适合初学数据仓库，为了完成老师作业，且想用weka做简单数据挖掘之用的童鞋。weka版本是3.6.2，数据库库是SQL Server 2005，没办法，老师提供的几万条数据保存在excel表中，如果从excel转为csv格式，再从weka中导入该csv文件，涉及到格式的转换，很是麻烦～况且几万条数

2016-06-08 21:31:02 1453

转载 weka

目录 1. 简介2. 数据格式3.数据准备4. 关联规则（购物篮分析）5. 分类与回归6. 聚类分析 1. 简介 WEKA的全名是怀卡托智能分析环境（Waikato Environment for Knowledge Analysis），它的源代码可通过http://www.cs.waikato.ac.nz/ml/weka得到。同时weka也是新西兰的一种鸟名，

2016-06-08 21:19:39 1590

转载梯度下降

2016-06-08 21:00:00 215

原创 lstm

1.逻辑函数：Logistic函数或Logistic曲线是一种常见的S形函数，它是皮埃尔·弗朗索瓦·韦吕勒在1844或1845年在研究它与人口增长的关系时命名的。广义Logistic曲线可以模仿一些情况人口增长（P）的S形曲线。起初阶段大致是指数增长；然后随着开始变得饱和，增加变慢；最后，达到成熟时增加停止。[1] logistic函数其实就是这样一个函数：非常简单吧，这个

2016-06-08 20:57:40 1526

原创 python sqlalchemy 写数据

# -*- coding: UTF-8 -*- from sqlalchemy import create_engine from sqlalchemy import Column, Integer, BigInteger, Stringfrom sqlalchemy.orm import sessionmaker from sqlalchemy.ext.de

2016-06-08 08:56:04 669

转载 sqlalchemy增删各种操作

首先说下，由于最新的 0.8 版还是开发版本，因此我使用的是 0.79 版，API 也许会有些不同。因为我是搭配 MySQL InnoDB 使用，所以使用其他数据库的也不能完全照搬本文。接着就从安装开始介绍吧，以 Debian/Ubuntu 为例（请确保有管理员权限）：1.MySQL复制代码代码如下:apt-get install mysql-serverapt-ge

2016-06-06 23:05:05 10324

空空如也

空空如也