2017年05月_张博208

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载 Python爬虫入门三之Urllib库的基本使用

1.分分钟扒一个网页下来怎样扒网页呢？其实就是根据URL来获取它的网页信息，虽然我们在浏览器中看到的是一幅幅优美的画面，但是其实是由浏览器解释才呈现出来的，实质它是一段HTML代码，加 JS、CSS，如果把网页比作一个人，那么HTML便是他的骨架，JS便是他的肌肉，CSS便是它的衣服。所以最重要的部分是存在于HTML中的，下面我们就写个例子来扒一个网页下来。1234im

2017-05-31 14:50:55 319

转载 Python JSON模块

（一）什么是json：JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。它基于JavaScript Programming Language, Standard ECMA-262 3rd Edition - December 1999的一个子集。JSON采用完全独立于语言的文本格式，但是也使用了类似于C

2017-05-31 14:48:43 243

转载 Python Pandas与Numpy中axis参数的二义性

Stackoverflow.com是程序员的好去处，本公众号将以pandas为主题，开始一个系列，争取做到每周一篇，翻译并帮助pandas学习者一起理解一些有代表性的案例。今天的主题就是Pandas与Numpy中一个非常重要的参数：axis.(轴）Stackoverflow问题如下：python中的axis究竟是如何定义的呢？他们究竟代表是DataFrame的行还是列？考虑以下代码

2017-05-26 17:13:06 1529

转载机器学习之正则化（Regularization）

1. The Problem of Overfitting1还是来看预测房价的这个例子，我们先对该数据做线性回归，也就是左边第一张图。如果这么做，我们可以获得拟合数据的这样一条直线，但是，实际上这并不是一个很好的模型。我们看看这些数据，很明显，随着房子面积增大，住房价格的变化趋于稳定或者说越往右越平缓。因此线性回归并没有很好拟合训练数据。我们把此类情

2017-05-26 14:35:46 482

转载核函数

http://crsouza.com/2010/03/17/kernel-functions-for-machine-learning-applications/In recent years, Kernel methods have received major attention, particularly due to the increased popularity of th

2017-05-25 20:27:38 1133

转载线性判别分析（Linear Discriminant Analysis）（二）

4. 实例将3维空间上的球体样本点投影到二维上，W1相比W2能够获得更好的分离效果。 PCA与LDA的降维对比： PCA选择样本点投影具有最大方差的方向，LDA选择分类性能最好的方向。 LDA既然叫做线性判别分析，应该具有一定的预测功能，比如新来一个样例x，如何确定其类别？

2017-05-25 19:02:16 441

转载线性判别分析（Linear Discriminant Analysis）（一）

http://www.cnblogs.com/jerrylead/archive/2011/04/21/2024384.html1. 问题之前我们讨论的PCA、ICA也好，对样本数据来言，可以是没有类别标签y的。回想我们做回归时，如果特征太多，那么会产生不相关特征引入、过度拟合等问题。我们可以使用PCA来降维，但PCA没有将类别标签考虑进去，属于无监督的。

2017-05-25 19:00:10 397

转载 A Painless Q-learning Tutorial (一个 Q-learning 算法的简明教程)

本文是对 http://mnemstudio.org/path-finding-q-learning-tutorial.htm 的翻译，共分两部分，第一部分为中文翻译，第二部分为英文原文。翻译时为方便读者理解，有些地方采用了意译的方式，此外，原文中有几处笔误，在翻译时已进行了更正。这篇教程通俗易懂，是一份很不错的学习理解 Q-learning 算法工作原理的材料。第一

2017-05-25 15:27:11 276

转载偏最小二乘法回归（Partial Least Squares Regression）

[pdf版本]偏最小二乘法回归.pdf1. 问题这节我们请出最后的有关成分分析和回归的神器PLSR。PLSR感觉已经把成分分析和回归发挥到极致了，下面主要介绍其思想而非完整的教程。让我们回顾一下最早的Linear Regression的缺点：如果样例数m相比特征数n少（m（n*n矩阵）的秩小于特征个数（即不可逆）。因此最小二乘法就会失效。为了解决这个问题

2017-05-25 14:48:05 2298

转载典型关联分析（Canonical Correlation Analysis）

典型关联分析（Canonical Correlation Analysis）[pdf版本] 典型相关分析.pdf1. 问题在线性回归中，我们使用直线来拟合样本点，寻找n维特征向量X和输出结果（或者叫做label）Y之间的线性关系。其中，。然而当Y也是多维时，或者说Y也有多个特征时，我们希望分析出X和Y的关系。当然我们仍然可以使用回归的方法来分析，做法

2017-05-25 12:08:41 1676

转载增强学习（Reinforcement Learning and Control）

http://www.cnblogs.com/jerrylead/archive/2011/05/13/2045309.html [pdf版本]增强学习.pdf 在之前的讨论中，我们总是给定一个样本x，然后给或者不给label y。之后对样本进行拟合、分类、聚类或者降维等操作。然而对于很多序列决策或者控制问题，很难有这么规则的样本。比如，四足机器人的控制问题

2017-05-25 12:07:28 1384

转载 Cost Sensitive Learning

http://www.svcl.ucsd.edu/projects/CostLearning/Cost Sensitive LearningCost Sensitive LearningClassification problems such as fraud detection, medical diagnosis, or obje

2017-05-24 18:29:34 6404

转载不平衡数据分类算法介绍与比较

https://arxiv.org/abs/1608.06048介绍在数据挖掘中，经常会存在不平衡数据的分类问题，比如在异常监控预测中，由于异常就大多数情况下都不会出现，因此想要达到良好的识别效果普通的分类算法还远远不够，这里介绍几种处理不平衡数据的常用方法及对比。符号表示记多数类的样本集合为L，少数类的样本集合为S。用r=|S|/|L|表示少数类与多数

2017-05-24 18:21:22 1054

转载增强学习（二）----- 马尔可夫决策过程Markov Decision

1. 马尔可夫模型的几类子模型我想大家一定听说过马尔科夫链(Markov Chain)，搞机器学习的也都知道隐马尔可夫模型(Hidden Markov Model，HMM)。它们具有的一个共同性质就是马尔可夫性(无后效性)，也就是指系统的下个状态只与当前状态信息有关，而与更早之前的状态无关。马尔可夫决策过程(MDP)也具有马尔可夫性，与上面不同的是MDP考虑了动作，即系统下个状

2017-05-23 13:28:25 2918

转载隐马尔科夫模型HMM学习最佳范例

隐马尔科夫模型HMM学习最佳范例公开 2012-10-24 19:33 | (分类:Bioinformatics)谷歌路过这个专门介绍HMM及其相关算法的主页：http://www.comp.leeds.ac.uk/roger/HiddenMarkovModels/html_dev/main.html 里面图文并茂动感十足，写得通俗易懂，可以说是介绍HMM很好的范例了。一个名

2017-05-23 13:07:03 1326

转载 SVM多类分类方法

SVM多类分类方法的实现根据其指导思想大致有两种：（1）将多类问题分解为一系列SVM可直接求解的两类问题，基于这一系列SVM求解结果得出最终判别结果。(2)通过对前面所述支持向量分类机中的原始最优化问题的适当改变，使得它能同时计算出所有多类分类决策函数，从而“一次性”地实现多类分类。原始问题可以改写为：虽然第(2)种指导思想看起来简单，但由于它的最优化问题求解过程太复杂，计

2017-05-23 11:56:17 762

转载 SVM实现多分类的三种方案

SVM本身是一个二值分类器　　SVM算法最初是为二值分类问题设计的，当处理多类问题时，就需要构造合适的多类分类器。　　目前，构造SVM多类分类器的方法主要有两类　　（1）直接法，直接在目标函数上进行修改，将多个分类面的参数求解合并到一个最优化问题中，通过求解该最优化问题“一次性”实现多类分类。这种方法看似简单，但其计算复杂度比较高，实现起来比较困难，只适合用于小型问题中；

2017-05-23 11:54:53 4828

转载 Active Learning

阅读目录1. 写在前面2. 什么是active learning？3. active learning的基本思想4. active learning与半监督学习的不同5. 参考文献回到顶部1. 写在前面　　在机器学习(Machine learning)领域，监督学习(Supervised learning)、非监督学习(Unsupervise

2017-05-23 11:53:38 708

转载总结：Bootstrap(自助法)，Bagging，Boosting(提升)

前言最近在理清一些很必要的也很基础的东西，记录一下，结合网上和文献，自己也有些易化使之更轻松理解，如有错误，请不吝赐教，多谢！Bootstrap(自助法)Bootstrap是一种抽样方法核心思想这里写图片描述子样本之于样本，可以类比样本之于总体栗子：我要统计鱼塘里面的鱼的条数，怎么统计呢？假设鱼塘总共有鱼100

2017-05-23 11:41:12 1185

转载机器学习经典算法详解及Python实现--元算法、AdaBoost

2017-05-23 11:11:09 601

转载集成学习方法

很好的参考：https://ocw.mit.edu/courses/health-sciences-and-technology/hst-951j-medical-decision-support-fall-2005/lecture-notes/hst951_6.pdf 集成学习是机器学习算法中非常强大的工具，有人把它称为机器学习中的“屠龙刀

2017-05-23 11:08:40 527

转载 sigmoid和softmax总结

sigmoid函数（也叫逻辑斯谛函数）：　引用wiki百科的定义：　　A logistic function or logistic curve is a common “S” shape (sigmoid curve).　　其实逻辑斯谛函数也就是经常说的sigmoid函数，它的几何形状也就是一条sigmoid曲线。　　logistic曲线如下：　　

2017-05-22 19:44:18 680

转载 Python中flatten用法

一、用在数组 >>> a = [[1,3],[2,4],[3,5]] >>> a = array(a) >>> a.flatten() array([1, 3, 2, 4, 3, 5]) 二、用在列表如果直接用flatten函数会出错 >>> a = [[1,3],[2,4],[3,5]] >>

2017-05-22 18:21:55 874

转载 numpy中的matrix矩阵处理

numpy模块中的矩阵对象为numpy.matrix，包括矩阵数据的处理，矩阵的计算，以及基本的统计功能，转置，可逆性等等，包括对复数的处理，均在matrix对象中。 class numpy.matrix(data,dtype,copy):返回一个矩阵，其中data为ndarray对象或者字符形式；dtype:为data的type；copy:为bool类型。>>> a = np.matrix(

2017-05-22 18:11:59 539

转载使用SQL语句从数据库一个表中随机获取数据

-- 随机获取 10 条数据SQL Server:SELECT TOP 10 * FROM T_USER ORDER BY NEWID()ORACLE:SELECT * FROM (SELECT * FROM T_USER ORDER BY DBMS_RANDOM.RANDOM()) WHERE RONUM MySQL:SELECT * FROM T_USER

2017-05-22 16:27:10 5345

转载独立成分分析（Independent Component Analysis）

独立成分分析（Independent Component Analysis）1. 问题： 1、上节提到的PCA是一种数据降维的方法，但是只对符合高斯分布的样本点比较有效，那么对于其他分布的样本，有没有主元分解的方法呢？ 2、经典的鸡尾酒宴会问题（cocktail party problem）。假设在party中有n个人，他们可以同时说话，我们也在房间中一些角落里

2017-05-22 12:34:45 493

转载 8 Tactics to Combat Imbalanced Classes in Your Machine Learning Dataset

原文地址： http://machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/Has this happened to you?You are working on your dataset. You create a classific

2017-05-22 12:09:53 506

转载随机采样方法整理（MCMC、Gibbs Sampling等）

转载请注明出处：Bin的专栏，http://blog.csdn.NET/xbinworld本文是对参考资料中多篇关于sampling的内容进行总结+搬运，方便以后自己翻阅。其实参考资料中的资料写的比我好，大家可以看一下！好东西多分享！PRML的第11章也是sampling，有时间后面写到PRML的笔记中去：)背景随机模拟也可以叫做蒙特卡罗模拟(Monte Carlo S

2017-05-22 12:01:59 766

转载【译文】R语言不平衡数据分类指南

在对不平衡的分类数据集进行建模时，机器学习算法可能并不稳定，其预测结果甚至可能是有偏的，而预测精度此时也变得带有误导性。那么，这种结果是为何发生的呢?到底是什么因素影响了这些算法的表现?在不平衡的数据中，任一算法都没法从样本量少的类中获取足够的信息来进行精确预测。因此，机器学习算法常常被要求应用在平衡数据集上。那我们该如何处理不平衡数据集?本文会介绍一些相关方法，它们并不复杂只是技巧性比较

2017-05-22 11:08:20 3540

转载斯坦福大学机器学习——因子分析（Factor analysis）

1 问题之前我们考虑的训练数据中样例的个数m都远远大于其特征个数n，这样不管是进行回归、聚类等都没有太大的问题。然而当训练样例个数m太小，甚至m<<n的时候，使用梯度下降法进行回归时，如果初值不同，得到的参数结果会有很大偏差（因为方程数小于参数个数）。另外，如果使用多元高斯分布(Multivariate Gaussian distribution)对数据进行拟合时，也会有问题。让

2017-05-21 20:49:57 3261 1

转载斯坦福大学机器学习——EM算法求解高斯混合模型

EM算法（Expection-Maximizationalgorithm，EM）是一种迭代算法，通过E步和M步两大迭代步骤，每次迭代都使极大似然函数增加。但是，由于初始值的不同，可能会使似然函数陷入局部最优。辜丽川老师和其夫人发表的论文：基于分裂EM算法的GMM参数估计（提取码：77c0）改进了这一缺陷。下面来谈谈EM算法以及其在求解高斯混合模型中的作用。一、高斯混合模型（Gauss

2017-05-21 20:27:15 595

转载深入解析python版SVM源码系列（三）——计算样本的预测类别

系列（二）中，对于SMO算法中有一个重要的代码：计算样本的预测类别。如下：fXi = float(multiply(alphas,labelMat).T*(dataMatrix*dataMatrix[i,:].T)) + b # 第i样本的预测类别11我们知道原始的预测类别计算公式是用决策面的参数w和b表示的，那么为什么这里的貌似不一样呢？原始的预测类别计算公式为：

2017-05-21 14:59:50 1411

转载 EM算法--应用到三个模型：高斯混合模型，混合朴素贝叶斯模型，因子分析模型

判别模型求的是条件概率p(y|x)，生成模型求的是联合概率p(x,y) .即 = p(x|y) ∗ p(y) 常见的判别模型有线性回归、对数回归、线性判别分析、支持向量机、boosting、条件随机场、神经网络等。常见的生产模型有隐马尔科夫模型、朴素贝叶斯模型、高斯混合模型、LDA、Restricted Boltzmann Machine等。所以这里说的高斯混合模型，

2017-05-21 10:47:09 3077

转载从最大似然到EM算法浅解

从最大似然到EM算法浅解zouxy09@qq.comhttp://blog.csdn.net/zouxy09 机器学习十大算法之一：EM算法。能评得上十大之一，让人听起来觉得挺NB的。什么是NB啊，我们一般说某个人很NB，是因为他能解决一些别人解决不了的问题。神为什么是神，因为神能做很多人做不了的事。那么EM算法能解决什么问题呢？或者说EM算法是因为什么而来到

2017-05-21 10:40:12 276

转载 K-mean原理及实践（K值确定）

kmeans一般在数据分析前期使用，选取适当的k，将数据聚类后，然后研究不同聚类下数据的特点。算法原理：(1) 随机选取k个中心点；(2) 在第j次迭代中，对于每个样本点，选取最近的中心点，归为该类；(3) 更新中心点为每类的均值；(4) j空间复杂度o(N)时间复杂度o(I*K*N)其中N为样本点个数，K为中心点个数，I为

2017-05-21 10:39:17 5983

转载数据中聚类个数的确定（Determining the number of clusters in a data set）

2017-05-20 22:54:17 1812

转载 logistic算法解析

[python] view plain copy"font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255);">对于《机器学习实战》中逻辑斯谛回归算法，其中有一行不好理解： [python] view plain copy

2017-05-20 15:36:54 729

转载 numpy 数组和矩阵的乘法的理解

1. 当为array的时候，默认d*f就是对应元素的乘积，multiply也是对应元素的乘积，dot（d,f）会转化为矩阵的乘积， 2. 当为mat的时候，默认d*f就是矩阵的乘积，multiply转化为对应元素的乘积，dot（d,f）为矩阵的乘积 3. 混合时候的情况，一般不要混合混合的时候默认按照矩阵乘法的, multiply转化为对应

2017-05-20 15:08:43 47943 4

转载机器学习之特征选择

特征选择方法初识：1、为什么要做特征选择在有限的样本数目下，用大量的特征来设计分类器计算开销太大而且分类性能差。2、特征选择的确切含义将高维空间的样本通过映射或者是变换的方式转换到低维空间，达到降维的目的，然后通过特征选取删选掉冗余和不相关的特征来进一步降维。3、特征选取的原则获取尽可能小的特征子集，不显著降低分类精度、不影响类分布以及特征子集应具有稳定适应性强等特点

2017-05-20 11:56:14 891

转载互信息（Mutual Information）

本文根据以下参考资料进行整理：　　1.维基百科：https://zh.wikipedia.org/wiki/%E4%BA%92%E4%BF%A1%E6%81%AF　　2.新浪博客：http://blog.sina.com.cn/s/blog_6255d20d0100ex51.html 　　在概率论和信息论中，两个随机变量的互信息（Mutual Information，

2017-05-20 11:54:57 4740

Pro Go The Complete Guide -go语言学习最新书籍

Best-selling author Adam Freeman explains how to get the most from Go, starting from the basics and building up to the most advanced and sophisticated features. You will learn how Go builds on a simple and consistent type system to create a comprehensive and productive development experience that produces fast and robust applications that run across platforms 参见：https://www.amazon.com/Pro-Go-Complete-Programming-Efficient/dp/1484273540/ref=sr_1_1?crid=1K22H21ZB1EIZ&keywords=Pro+Go+The+Complete+G

2023-06-19

扩散模型讲义美国大学之一

2023-03-28

Advanced_Programming_in_the_UNIX_Environment，_3rd

Advanced_Programming_in_the_UNIX_Environment，_3rd_Edition very good book for unix user

2018-11-30

Pattern_Recognition_and_Big_Data

Pattern_Recognition_and_Big_Data 很好的资源，对于学习大数据的朋友来说

2018-09-07

图论引导中文

中文版本图论引导

2018-09-05

现代图论--------------

现代图论研究生教材适合大家学习与总结了

2018-09-05

Deep_Learning_Quick_Reference

Deep_Learning_Quick_Reference, a cookbook for deep learning

2018-09-01

Convex Optimization Algorithms

Convex Optimization Algorithms, understand convex optimization algorithms, this is good chances

2018-09-01

Guide.to.Medical.Image.Analysis.Methods.and.Algorithms

Guide.to.Medical.Image.Analysis.Methods.and.Algorithms very good book for computer vision

2018-09-01

machine learning algorithm

machine learning algorithm 想学习的可以好好学学了

2018-04-02

Python Machine Learning Machine Learning and Deep Learning

Python Machine Learning Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow, 2nd Edition 很受推荐

2018-03-27

Data Structures and Algorithms Using Python and C++

Data Structures and Algorithms Using Python and C++ 数据结构与算法方面的书籍

2018-03-27

R_for_Data_Science

R_for_Data_Science_－_Import，_Tidy，_Transform，_Visualize_and_Model_Data.rar

2018-03-27

深度学习之Pytorch

国内少有的学习 pytorch的资料,适合初学者, 希望对大家有帮助,清晰版本

2018-03-27

Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow

Table of Contents Giving Computers the Ability to Learn from Data Training Simple Machine Learning Algorithms for Classification A Tour of Machine Learning Classifiers Using Scikit-Learn Building Good Training Sets - Data Preprocessing Compressing Data via Dimensionality Reduction Learning Best Practices for Model Evaluation and Hyperparameter Tuning Combining Different Models for Ensemble Learning Applying Machine Learning to Sentiment Analysis Embedding a Machine Learning Model into a Web Application Predicting Continuous Target Variables with Regression Analysis Working with Unlabeled Data - Clustering Analysis Implementing a Multilayer Artificial Neural Network from Scratch Parallelizing Neural Network Training with TensorFlow Going Deeper - The Mechanics of TensorFlow Classifying Images with Deep Convolutional Neural Networks Modeling Sequential Data using Recurrent Neural Networks

2018-03-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

llama3 study

tensorrt ppt资料

GPU-知识点资料合集

Pro Go The Complete Guide -go语言学习最新书籍

扩散模型讲义 美国大学之一

Advanced_Programming_in_the_UNIX_Environment，_3rd

Pattern_Recognition_and_Big_Data

图论引导 中文

现代图论--------------

Deep_Learning_Quick_Reference

Convex Optimization Algorithms

Guide.to.Medical.Image.Analysis.Methods.and.Algorithms

machine learning algorithm

Python Machine Learning Machine Learning and Deep Learning

Data Structures and Algorithms Using Python and C++

R_for_Data_Science

深度学习之Pytorch

Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow

Approximate.Dynamic.Programming.2011

计算群体智能基础

Swarm Intelligence Principles Advances and Applications

Reinforcement Learning With Open A TensorFlow and Keras Using Python.pdf

Fundamentals of Deep Learning完整非扫描版本2017

Data Wrangling with R

NLTK基础教程-用NLTK和Python库构建机器学习应用2017-06

Text Mining in Practice with R 2017.12

Text_Mining－From_Ontology_Learning_to_Automated_Text_Processing_Applications

Python Natural Language Processing最新版本

Mastering Scipy

Elegant SciPy

Tensorflow 机器学习参考手册2007

reinforcement learning An Introduction 第二版

Spark大数据处理技术 带标签 完整版

TensorFlow技术解析与实战 高清晰完整版- 2017新书

TENSORFLOW深度学习

模式分类11

集体编程智慧

敏捷软件开发：原则、模式与实践

面向对象方法原理与实践

ollydbg 教程

空空如也

扩散模型讲义美国大学之一

图论引导中文

Spark大数据处理技术带标签完整版

TensorFlow技术解析与实战高清晰完整版- 2017新书