guang_mang-CSDN博客

原创关于python读取文件编码问题（作弊方法）

同学们1、看这里如果你的程序读取文件出现乱码问题出现这样乱码问题2、其次你需要安装一个notepad++，百度下载以后也可以用得着然后右击，选择notepad++打开你乱码的这个文件3、最后大招（改变编码格式）最后你就可以看到你熟悉的汉字了，，，哈哈。。。祝成功，，，

2017-12-10 21:44:48 1107

原创 sklearn因子分析（python）

因子分析因子分析（Factor Analysis）是指研究从变量群中提取共性因子的统计技术，这里的共性因子指的是不同变量之间内在的隐藏因子。例如，一个学生的英语、数据、语文成绩都很好，那么潜在的共性因子可能是智力水平高。因此，因子分析的过程其实是寻找共性因子和个性因子并得到最优解释的过程。因子分析有两个核心问题：一是如何构造因子变量，二是如何对因子变量进行命名解释。因子分析有下面4个基

2017-12-07 21:43:51 34849 5

介绍特征向量和特征值在计算机视觉和机器学习中有许多重要的应用。众所周知的例子是PCA（主成分分析）进行降维或人脸识别是特征脸。特征向量和特征值的一个有趣应用在我的另一篇有关误差椭圆的博文中提到。此外，特征值分解形成协方差矩阵几何解释的基础。在这篇文章中，我将简单的介绍这个数学概念，并且展示如何手动获取二维方形矩阵的特征值分解。特征向量是一个向量，当在它上面应用线性变换时其方向保持不变。考虑下面的图像

2017-12-05 20:52:41 909

原创栈的应用之二进制（python）

栈的定义首先定义一个名为Stack的栈的类初始化一个属性items为空列表，然后定义函数，进行一个动作或者是返回一个值，自行理解，不喜勿喷class Stack(): def __init__(self):#添加属性 self.items = [] def isEmpty(self):#定义方法，直接调用 return self.item

2017-11-25 14:57:49 729

原创内螺旋矩阵和双螺旋矩阵（python）

题主最近在学数据结构内螺旋矩阵如图所示就是一种螺旋的形状首先这个出现的矩阵一定是奇数来表现，然后输入你想输出的矩阵行数，必须转换为奇数然后通过生成一个包含多个列表的列表来存储数据生成坐标系，游标i通过判断坐标所属的区域来判断坐标应该进行的变化#内螺旋矩阵# def interSpiralMatrix(size):# if (size % 2

2017-11-24 15:56:41 3050

转载关联分析Apriori算法（python）

小伙伴们，继续一起学习机器学习算法啦，今天学习关联分析、Apriori算法啦！大家肯定很熟悉一个故事-沃尔玛超市数据总结出的啤酒与尿布的相关性（知乎上也有牛人们在讨论这个故事的真假）图1来自《机器学习实战》这本书里提到的一个例子，展示了如下的一个购物清单：图2 在上述购物交易单中发现，{尿布，葡萄酒}出现的次数较多，辣么，他们之间真的有木有关系呢？这就需要关联分析。关联分析：在大规模数据集中

2017-10-11 19:05:19 970

原创 CART分类回归树-（python3）

一、树回归1、简介假设X与Y分别是输入和输出向量，并且Y是连续变量，给定训练数据集考虑如何生成回归树。一个回归树对应着输入空间（即特征空间）的一个划分以及在划分的但单元上的输出值。假设已将输入空间划分为M个单元，并且在每个单元上有一个固定的输出值，于是回归树模型可表示为（简单来说就是把数据集划分为多份数据，且每份数据集里面

2017-10-10 20:24:33 2506 2

转载 xgboost入门

xgboost入门与实战（原理篇）前言： xgboost是大规模并行boosted tree的工具，它是目前最快最好的开源boosted tree工具包，比常见的工具包快10倍以上。在数据科学方面，有大量kaggle选手选用它进行数据挖掘比赛，其中包括两个以上kaggle比赛的夺冠方案。在工业界规模方面，xgboost的分布式版本有广泛的可移植性，支持在YARN, MPI, Sungrid En

2017-09-26 19:01:49 584

转载梯度提升树(GBDT)原理

在集成学习之Adaboost算法原理小结中，我们对Boosting家族的Adaboost算法做了总结，本文就对Boosting家族中另一个重要的算法梯度提升树(Gradient Boosting Decison Tree, 以下简称GBDT)做一个总结。GBDT有很多简称，有GBT（Gradient Boosting Tree）, GTB（Gradient Tree Boosting ）， GBRT

2017-09-26 19:00:16 614

转载集成学习之Adaboost算法原理小结

在集成学习原理小结中，我们讲到了集成学习按照个体学习器之间是否存在依赖关系可以分为两类，第一个是个体学习器之间存在强依赖关系，另一类是个体学习器之间不存在强依赖关系。前者的代表算法就是是boosting系列算法。在boosting系列算法中， Adaboost是最著名的算法之一。Adaboost既可以用作分类，也可以用作回归。本文就对Adaboost算法做一个总结。1. 回顾boosting算法的

2017-09-26 18:59:27 517

转载集成学习原理

集成学习(ensemble learning)可以说是现在非常火爆的机器学习方法了。它本身不是一个单独的机器学习算法，而是通过构建并结合多个机器学习器来完成学习任务。也就是我们常说的“博采众长”。集成学习可以用于分类问题集成，回归问题集成，特征选取集成，异常点检测集成等等，可以说所有的机器学习领域都可以看到集成学习的身影。本文就对集成学习的原理做一个总结。1. 集成学习概述　　　　从下图，我们可

2017-09-26 18:58:36 464

原创泰坦尼克号生存预测（python）

生存预测泰坦尼克号生存预测是kaggle上面对于初级机器学习者比较适合的用来练习的比赛，本人现在想学习一些特征工程之类相关的只是，所以就是看了一下kaggle上面的大佬展示出来的notebook，有些理解与你们共享，互相学习数据集说明首先我们在学习之前要来看一下就是这个我们要学习的数据集，对于这个数据，然后来看作者是要进行怎样的操作，他是怎么操作，学习一下思路特征工

2017-09-25 19:45:00 5764 1

原创关于xgboost安装在anaconda上面（python3.6，64位，windows10）

xgboost安装教程首先要在这里吐槽一下各种博客上面的安装xgboost的包的安装解说，是要安装git和mingw各种操作，各种解析，但是到我这里试了一天，就是下载不下来，搞得我好烦躁安装anacondaanaconda里面自带有python版本点击下载，你可以自由选择，在这里不多说1、安装xgboost首先这个包下载点击打开链接，里面找到你想用的匹配你的python

2017-09-21 17:01:34 613

转载 KKT条件

KKT条件介绍最近学习的时候用到了最优化理论，但是我没有多少这方面的理论基础。于是翻了很多大神的博客把容易理解的内容记载到这篇博客中。因此这是篇汇总博客，不算是全部原创，但是基础理论，应该也都差不多吧。因才疏学浅，有纰漏的地方恳请指出。 KKT条件是解决最优化问题的时用到的一种方法。我们这里提到的最优化问题通常是指对于给定的某一函数，求其在指定作用域上的全局最小值。提到K

2017-09-19 21:34:53 1262

转载 sklearn预处理

本文总结的是我们大家在python中常见的数据预处理方法，以下通过sklearn的preprocessing模块来介绍;1. 标准化（Standardization or Mean Removal and Variance Scaling)变换后各维特征有0均值，单位方差。也叫z-score规范化（零均值规范化）。计算方式是将特征值减去均值，除以标准差。sklearn.preprocessing.

2017-09-17 19:55:24 595 1

原创 PCA降纬（python）

PCA降纬pca降纬是一种无监督算法，是为了减少不必要的特征值，去除冗余或者对结果影响特别小的特征，产生较小误差主成分分析（PCA）是一种维数降低算法，可以显着加速无人监督的特征学习算法。更重要的是，这是许多算法的重要预处理步骤。假设您正在对图像进行训练。那么输入将是有点冗余的，因为图像中相邻像素的值是高度相关的。具体来说，假设我们正在对16x16灰度图像补丁进行培训。然后是256个维

2017-09-15 21:00:08 1538

转载正规方程推导过程

那啥，之前笔记里这部分是略过的。这里整理一下吧。有兴趣的可以对照看看和你推倒的过程一样不。我们先回顾一下，我们定义观测结果y和预测结果y’之间的差别为Rss:设若参数的矩阵为,则那么按照我们的定义，这个Rss的意思是y和y’之间的差，那么当Rss无限趋近于0的时候，则y≈y’，即我们求得的预测结果就等于实际结果。于是，令Rss等于某一极小值，则对参数求导，得：展开，得进而就可以得到于是我们就得到正规

2017-09-15 19:31:00 8771 5

原创 k-means算法(python)

k-means算法k-means算法是聚类算法，属于无监督学习，是没有标签（分类）的学习，聚类的目的是找到每个类潜在的类别y，并且将同个类别的样本放在一起，这样就是每个类里面的样本相互间的距离比较近，但是就是各个类之间的距离比较远，通过减小每个类里面的样本的相互距离，然后增大不同类别之间的距离，更好的聚类实现过程（1）随机选取k个聚类质心点（2）计算每个样本点到每个质心点的

2017-09-13 18:50:11 505

转载七种回归

目录(?)[+]介绍内容什么是回归分析我们为什么要用回归分析回归有哪些类型线性回归逻辑回归多项式回归逐步回归岭回归LASSO回归ElasticNet回归如何去选择回归模型参考介绍根据受欢迎程度，线性回归和逻辑回归经常是我们做预测模型时，且第一个学习的算法。但是如果认为回归就两个算法，就大错特错了。事实上我们有许多类型的回归方法可以去建模。每一个算法都有其重要性和特殊性。内容1.什么

2017-09-12 21:45:04 497

转载最小二乘法（python）

最小二乘法Least Square Method，做为分类回归算法的基础，有着悠久的历史（由马里·勒让德于1806年提出）。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。那什么是最小二乘法呢？别着急，我们先从几个

2017-09-12 20:36:05 1462

原创随机森林（python）

什么是随机森林随机森林是几乎任何预测问题 (甚至非直线部分) 的固有选择。它是一个相对较新的机器学习的策略（在 90 年代产生于贝尔实验室 ) 和它可以几乎用于任何方面。它属于机器学习算法一大类----- 集成学习方法。集成学习集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生

2017-09-01 19:53:55 3220 2

转载奇异值分解的推理及意义

PS：一直以来对SVD分解似懂非懂，此文为译文，原文以细致的分析+大量的可视化图形演示了SVD的几何意义。能在有限的篇幅把这个问题讲解的如此清晰，实属不易。原文举了一个简单的图像处理问题，简单形象，真心希望路过的各路朋友能从不同的角度阐述下自己对SVD实际意义的理解，比如个性化推荐中应用了SVD，文本以及Web挖掘的时候也经常会用到SVD。英文原文：We recommend a singular

2017-08-17 10:02:34 309

转载漫谈协方差矩阵

一、统计学的基本概念统计学里最基本的概念就是样本的均值、方差、标准差。首先，我们给定一个含有n个样本的集合，下面给出这些概念的公式描述：均值：标准差：方差：均值描述的是样本集合的中间点，它告诉我们的信息是有限的，而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。以这两个集合为例，[0, 8, 12, 20]和[8, 9, 11, 12]，两个集合的均值都是10，但

2017-08-17 09:58:37 242

转载神经网络中的sigmoid函数

1、weights、bias 参数学习我们希望有一种学习算法，它能够自动地调整网络中的权重因子和偏置。但是，我们怎样才能设计出这样的算法神经网络？可以通过学习来解决一些问题。假如，网络的输入是从扫描的原始像素数据，亦或是手写数字的图像。我们希望通过网络可以自动地学习权重和偏差，使输出从网络正确分类的数字。假设我们对网络上的一些权重（或偏置）做一些小的调整，并且希望网络上权重因子和偏差也仅有较小的

2017-08-08 16:54:41 7979

原创神经网络算法

对神经网络算法的理解建立仿照人脑的机制，能够像人脑一样对于事情进行思考，其中最重要最频繁使用的就是分类.1、简单得二分类首先会有一个附加节点默认为1，所以这个输入就是x,y,1,三条线表示通过不同的权重得到z，所以但是z的值为，所以采用sigmoid函数进行范围控制。2、多分类问题（1）进行逻辑与运算如下图（2）进行逻辑或运算（3）逻

2017-08-08 16:30:44 347

转载正规方程

1. 正规方程前面几篇文章里面我们介绍了求解线性回归模型第一个算法梯度下降算法，梯度下降算法最核心的是找到一个学习速率α，通过不断的迭代最终找到θ0 … θn, 使得J(θ)值最小。今天我们要介绍一个解决线性回归模型新的算法正规方程对于函数f(x) = ax^2 + bx + c 而言，要求其最小值，是对其求导数并且设置导数值为0.我们知道，多维特征变量的线性回归模型中，代价函数表达式，如下图

2017-08-04 09:49:15 500

转载梯度下降算法

回归(regression)、梯度下降(gradient descent)本文由LeftNotEasy所有，发布于http://leftnoteasy.cnblogs.com。如果转载，请注明出处，在未经作者同意下将本文用于商业用途，将追究其法律责任。前言:上次写过一篇关于贝叶斯概率论的数学，最近时间比

2017-08-01 14:44:53 183

原创 sklearn学习笔记-《模型验证方法》

模型验证方法1.学习率曲线（learn_curve）2.交叉验证得分（cross_val_score）3.验证曲线（validation_curve）一.学习率曲线计算指定的学习器模型在不同大小的训练集上经过交叉验证的训练得分和测试得分首先，用一个交叉验证生成器划分整体数据集K次，每一次划分都有一个训练集和测试集。然后从每次划分的训练集中拿出若干个数量不断增加的

2017-07-24 16:49:24 2405

原创 sklearn学习笔记-《超参数优化方法》

超参数：学习器模型中一般有两种参数，一种参数是可以从学习中得到，还有一种无法靠数据里面得到，只能靠人的经验来设定，这类参数就叫做超参数。优化超参数:参数空间是由1.一个回归器或者一个分类器2.一个参数空间3.一个搜索或者采样机制来获得候选你参数4.一个交叉验证机制5.一个评分函数有两种优化超参数的方法1.网格搜索（GridSearchCV）#co

2017-07-24 12:00:27 9646 2

原创 sklearn 中的算法选择图（中文）

经过翻译的sklearn算法选择路径图

2017-06-24 10:55:08 6018 2

原创朴素贝叶斯算法解析-机器学习实战（python）

一、朴素贝叶斯算法详解朴素贝叶斯算法的关键就是这个朴素贝叶斯公式朴素贝叶斯算法适用于文本分类，最后是要知道，这个文本属于每一个类别的概率，属于哪一个类别的概率最大，就是属于那个类别所以现在y是类别标签是下面的classVec，x是他的特征属性，就是下面的postingList，这个公式的精华在于假设每个属性之间是相互独立的所以才有了下面的公式二、算法的实际

2017-05-22 21:22:11 561

原创电脑管家怎么关闭右键深度加速（小火箭）功能

电脑管家更新之后不知道怎么回事出现了一个右键深度加速功能，让我很是恼火，所以想了个办法，去掉这个。1首先找到注册表，Windows加R键2然后点击编辑-查找-QMRealTimeSpeedupShellContextMenuExtension这个3然后点击这个文件夹删除注意是把左边这个文件夹右击然后删除就可以了，而不是只删除后面的键值

2017-05-20 21:07:26 5237

原创信息增益以及决策树算法-机器学习实战（python）

信息增益：信息熵和条件熵的差值就是信息增益，主要含义是指期望信息或者信息上的有效减少量，根据他来确定在什么样的层次上选择什么样的变量来分类。计算过程我通过一个例子来展现出来现在还没有划分数据集，计算信息熵按照公式为Entropy(S)=-9/14*log2（9\14）-9/14*log2（9\14）当Wind固定为Weak时：记录有8条，其中yes为6个，NO为2个

2017-05-09 21:01:26 3605

原创《机器学习实战》-kNN算法手写算法识别

通过观看机器学习实战这本书，有了些许读后感，下面是我理解这本书里面的KNN算法，希望阔以帮助你们稍微加强一下理解数据集代码下载KNN算法其实就是邻近算法，或者说K最近邻(kNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。也就是说离你最近的k个点中，大多数点属于

2017-05-08 20:28:03 789

原创 heatmap.js调用百度地图api做热力图

做热力图使用heatmap.js模块然后就是来挑用百度地图api是他展现在百度地图上面一首先你要申请一个百度地图api接口的密钥申请网址申请密钥之后，先登录上自己的账号然后创建应用三就是来取一个应用名称，服务，类型全都不用动，ip白名单校验请设置为0.0.0.0/0，然后查看应用，把访问应用的AK码填入下面的代码里面var points里面填入自己的经纬度

2017-05-05 19:37:37 34942 9

原创 pandas做数据的清洗

转换之后的经纬度的数据出现很多的问题，重复，特殊值，，，所以我就是做了一个简单的清洗使用 Python里面的pandas。#coding:utf8import pandas as pdimport numpy as np# import csvdf = pd.read_csv(r'D:\MobileFile\fangjia2.csv', encoding='gbk')#读取房价

2017-05-05 19:29:15 1440

原创 Python做全国房价分析——经纬度的转换

现在正在学习使用Python来做数据分析挖掘，先做了一些小的案例，最近做了一个全国各地的房价分析，首先我先是爬取了安居客上面的所有的全国房价的地址，房价，大概五万条数据，因为想以热力图的形式展现朱来+

2017-05-03 15:56:58 3088

原创 Python使用wordcloud做词云

看着很多好看的词云照片，想到Python也可以做这个词云。一先是安装Wordcloud模块，jieba模块，使用 pip install 模块名字二如果你安装好了之后，先是按照网上的代码来敲的话，毫无疑问你会遇到这个问题三再然后就是解决这个问题在WordCloud安装的目录下找到WordCloud.py文件，对源码进行修改。编辑wordcloud

2017-05-03 15:22:52 2144

原创 python pandas库具体用法

一学习数据挖掘，如果是用Python的话，必须掌握好科学计算的相关库，我先学习了pandas的一些具体操作代码#-*- encoding:utf-8 -*-import numpy as npimport osimport pylab as plimport pandas as pdfrom pandas import Series,DataFrameimport matplotli

2017-04-20 12:32:02 642

原创决策树算法Python代码实现

决策树的学习：目前是想学习用Python语言来实现算法从而来进行数据挖掘和分析，数据挖掘分析是要求一个数据库，掌握一门语言，和一些必要的算法，目前刚刚开始学习，其实看似很高大上的数据挖掘，也没有那么难，希望来这里的朋友都有所收获，共勉决策树就是通过一种树结构来把这个对象的参数具体的分类，从而更直观的理解，一般是通过信息熵的来依次往下分类，信息熵点这里# coding:utf-8f

2017-03-21 14:37:02 3404

数据分析kaggle大赛泰坦尼克号数据

sklearn 学习（中文）比较全面

sklearn 学习（中文），只是一些算法

机器学习实战-knn算法代码及数据集

全国城市房价（安居客）

空空如也