平原2018-CSDN博客

原创机器学习之模型评估方法总结

一、分类模型评估1、混淆矩阵（confusion matrix）2、ROC3、AUC二、回归模型评估1、SSE(和方差)2、MSE(均方差)3、RMSE(均方根、标准差)4、R-Squared(确定系数)5、MAE(平均绝对误差)6、交叉验证（Cross-Validation）一、分类模型评估1、混淆矩阵（confusion matrix）......

2018-08-13 10:50:23 7297 1

原创机器学习之GBDT算法（待续）

一、GBDT 概念二、GBDT的负梯度拟合分类回归树CART负梯度拟合三、GBDT回归算法四、GBDT分类算法1、二元GBDT分类算法2、多元GBDT分类算法五、 GBDT常用损失函数六、 GBDT的正则化七、 GBDT小结　一、GBDT 概念GBDT 的全称是 Gradient Boosting Decision Tree，梯度提升...

2018-08-11 16:11:12 1486

原创机器学习之降维方法：PCA和LDA的区别

一、PCA（主成分分析）二、LDA（线性判别分析）1、二类LDA原理2、多类LDA原理3、LDA算法流程4、LDA算法小结三、 LDA 和 PCA区别一、PCA（主成分分析）PCA是一种无监督的数据降维方法降维是对数据高维度特征的一种预处理方法。降维是将高维度的数据保留下最重要的一些特征，去除噪声和不重要的特征，从而实现提升数据处理速度的目的。在实际的生...

2018-08-10 20:33:20 11323 3

原创机器学习之多种算法优缺点总结及优化方法

一、无监督算法：1、聚类算法：Kmeans2、关联规则算法：Apriori二、有监督算法1、分类算法决策树(Decision Tree)支持向量机(SVM)K近邻(kNN，k-NearestNeighbor)朴素贝叶斯逻辑回归2、回归算法线性回归多项式回归3、集成算法a、bagging（Bootstrapped Aggregation）随机森林...

2018-08-08 19:34:45 6667

原创机器学习之随机森林(RF)详解

一、bagging算法1、简介2. bagging算法流程二、随机森林1、简介2、CART分类树的生成3、总结常用集成学习包括Bagging ,Boosting, Stacking三种。见https://blog.csdn.net/sinat_30353259/article/details/81034749 bagging算法的典型实现是随机森林（Ra...

2018-08-04 13:08:20 5257 1

原创机器学习之各种熵的总结

一、什么是熵物理学上，熵 Entropy 是“混乱” 程度的量度。系统越有序，熵值越低；系统越混乱或者分散，熵值越高信息理论： 1、当系统的有序状态一致时，数据越集中的地方熵值越小，数据越分散的地方熵值越大。这是从信息的完整性上进行的描述。 2、当数据量一致时，系统越有序，熵值越低；系统越混乱或者分散，熵值越高。这是从信息的有序性上进行的描述。假如事件A的分类划分是（A1,...

2018-07-21 20:58:10 2071

原创机器学习之逻辑回归

一、基本概念1、什么是逻辑回归2、逻辑回归损失函数推导3、梯度下降法求解二、对比分析1、逻辑回归的优缺点2、与线性回归的区别逻辑回归：解决分类问题一、基本概念1、什么是逻辑回归逻辑回归在某些书中也被称为对数几率回归，明明被叫做回归，却用在了分类问题上，我个人认为这是因为逻辑回归用了和回归类似的方法来解决了分类问题。假设有一个二...

2018-07-20 20:52:41 548

原创机器学习之常见聚类方法

一、kmeans1、算法流程2、使用距离3、k值的选择4、算法优化5、K-means 附加问题二、层次聚类1、流程：2、层次聚类方法三、基于密度（DBSCAN）1、定义2、流程3、K-means与DBSCAN的区别一、kmeans1、算法流程1.选择聚类的个数k（kmeans算法传递超参数的时候，只需设置最大的K...

2018-07-17 18:05:34 2026

转载集成学习之Adaboost算法原理

内容来自http://www.360doc.com/content/14/1109/12/20290918_423780183.shtml一、Adaboost的原理1.1 Adaboost是什么AdaBoost，是英文”Adaptive Boosting”（自适应增强）的缩写，由Yoav Freund和Robert Schapire在1995年提出。它的自适应在于：前一个基本分类器...

2018-07-16 20:59:34 607 1

原创机器学习之XGBoost集成算法、牛顿法

一、XGBoost算法基本构成 boosted tree作为有监督学习算法有几个重要部分：模型、参数、目标函数、优化算法模型模型指给定输入x如何去预测输出y 参数参数指我们需要学习的东西，在线性模型中，参数指我们的线性系数w 目标函数目标函数：损失 + 正则，教我们如何去寻找一个比较好的参数一般的目标函数包含下面两项: Bias-variance...

2018-07-15 15:15:59 1155

转载泰勒级数详解

泰勒公式一句话描述：就是用多项式函数去逼近光滑函数。先来感受一下：定理：设 n 是一个正整数。如果定义在一个包含 a 的区间上的函数 f 在 a 点处 n+1 次可导，那么对于这个区间上的任意 x，都有 f(x)=f(a)+f′1!(x−a)+f(2)(a)2!(x−a)2+...+fn(a)n!(x−a)n+Rn(x)f(x)=f(a)+f′1!(x−a)+f(2)(a)2!(...

2018-07-15 13:40:17 38752 1

原创机器学习之凸优化、贝叶斯网络、奇异值分解（SVD）

一、凸优化1、概念1.1仿射集定义1.2 凸集1.3 锥定义2、凸优化二、贝叶斯网络通过贝叶斯网络判定的条件独立(1）形式1：head-to-head(2) 形式2：tail-to-tail(3) 形式3：head-to-tail三、SVD奇异值分解3.1 奇异值分解例子：3.2 SVD概念及理解一、凸优化1、概念...

2018-07-14 11:47:55 1361

转载机器学习之集成学习

一、集成算法（Ensemble Algorithms）综述二、关于基础分类器结果整合的主要方式1. 对于回归预测（数值预测）2. 对于分类（类别预测）3、Bootstrap算法（1）、基于Bootstrap 的Bagging 算法（2）基于Bagging的Random Forest4、Boosting算法（1）、基于Boosting的AdaBoost5、Stacki...

2018-07-13 17:11:21 897

转载机器学习之协方差矩阵、黑塞矩阵、标准差椭圆和EM算法

一、统计学的基本概念学过概率统计的孩子都知道，统计里最基本的概念就是样本的均值，方差，或者再加个标准差。首先我们给你一个含有n个样本的集合X={X1,…,Xn}，依次给出这些概念的公式描述，这些高中学过数学的孩子都应该知道吧，一带而过。均值： X¯=∑ni=1XinX¯=∑i=1nXin\bar{X}=\frac{\sum_{i=1}^n X_{i}}{n} 标准差： s=∑n...

2018-07-11 20:33:58 4741

原创协方差求解

协方差求解 xi=(1,2,3,4)T,x2=(3,4,1,2)T,x3(2,3,1,4)Txi=(1,2,3,4)T,x2=(3,4,1,2)T,x3(2,3,1,4)Tx_i=(1,2,3,4)^T,x_2=(3,4,1,2)^T,x_3(2,3,1,4)^T 问题转化为 cov(z)=⎡⎣⎢132243311424⎤⎦⎥cov(z)=[123434122314]cov(z)=\l...

2018-07-11 17:24:38 452

原创过拟合、正则化和损失函数

一、过拟合：过度的拟合了训练数据，而没有考虑到泛化能力。模型在训练集上表现很好，但是在交叉验证集上表现先好后差。这也正是过拟合的特征！发生过拟合的主要原因可以有以下三点：（1）数据有噪声（2）训练数据不足，有限的训练数据（3）训练模型过度导致模型非常复杂二、正则化：一、概念L1范数：当p=1时，是L1范数，其表示某个向量中所有元素绝对...

2018-07-10 20:54:16 5941

原创机器学习之SVM(支持向量机)算法详解

1-1 基本流程一、概念：SVM：寻找到一个超平面使样本分成两类，并且间隔最大。而我们求得的w就代表着我们需要寻找的超平面的系数与超平面的距离表示分类的确信度，距离越远则分类正确的确信度越高超平面方程一条直线方程，其中m是斜率， c是直线在y轴的截距：y = mx + c超平面的一般方程如下： wTx=0wTx=0w^Tx=0 其中w和x是向量， w...

2018-07-10 20:03:09 1813

原创条件概率公式图解推导

废话不多，先上贝叶斯公式：众所周知由P(AB)=P(A|B)P(B)=P(B|A)P(A)P(AB)=P(A|B)P(B)=P(B|A)P(A)P(AB)=P(A|B)P(B)=P(B|A)P(A) 得出贝叶斯公式 P(A|B)=P(A)P(B|A)P(B)P(A|B)=P(A)P(B|A)P(B)P(A|B)= \frac{P(A)P(B|A)}{P(B)} 原来一直不理解P(AB...

2018-07-08 12:40:36 37748 12

原创关联规则--Apriori算法

一、算法原理：应用：关联规则挖掘，发现事物之间的内在联系超市每天都收集大量的顾客购物数据，称其为购物篮交易（market basket transaction)。表中每一行对应一个交易，包含一个唯一标识TID和特定顾客购买的商品集合。 ①支持度： P(A ∩ B)，既有A又有B的概率 ②置信度： P(B|A)，在A发生的事件中同时发生B的概率 p(AB)/P(A) ...

2018-07-07 13:46:00 2943

原创 PageRank算法

一、算法原理：1、如果一个网页被很多其他网页链接到的话说明这个网页比较重要，也就是PageRank值会相对较高 2、如果一个PageRank值很高的网页链接到一个其他的网页，那么被链接到的网页PageRank值也会相应提高。例子：如果一个网页有k条出链，那么跳转任意一个出链上的概率是1/k ；如果用n表示网页的数目，则转移矩阵M是一个n*n的方阵；如果网页j有k个出链，那么对每一...

2018-07-07 11:59:29 1335

原创机器学习之朴素贝叶斯算法详解

1-1 基本流程朴素贝叶斯公式： P(A|B)=P(A)P(B|A)P(B)P(A|B)=P(A)P(B|A)P(B)P(A|B) = \frac{P(A)P(B|A)}{P(B)}一、概率基础知识：条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为： P(A|B)，读作“在B条件下A的概率”。若只有两个事件A， B，那么： P(AB)=P...

2018-07-05 19:39:13 43055 4

原创机器学习之决策树算法详解

1-1 基本流程一、概念：决策树：是一种树形结构，其中每个内部节点表示一个属性上的判断，每个分支代表一个判断结果的输出，最后每个叶节点代表一种分类结果，本质是一颗由多个判断节点组成的树。二、划分依据：①熵物理学上，熵 Entropy 是“混乱” 程度的量度。系统越有序，熵值越低；系统越混乱或者分散，熵值越高信息理论： 1、当系统的有序状态一致时，数据越集中...

2018-07-04 19:18:37 24412 2

原创机器学习之KNN（k近邻）算法详解

1-1 机器学习算法分类一、基本分类：①监督学习（Supervised learning）数据集中的每个样本有相应的“正确答案”，根据这些样本做出预测，分有两类：回归问题和分类问题。步骤1：数据集的创建和分类步骤2：训练步骤3：验证步骤4：使用（ 1）回归问题举例例如：预测房价，根据样本集拟合出一条连续曲线。（ 2） ...

2018-07-03 17:28:25 149589 16

原创机器学习之k-means算法详解

K-means算法（无监督算法，聚类算法）1-1 基本流程一、概念：二、主要特点：三、算法流程：kmeans作用：去除奇异值小结：1-2 算法效果衡量标准一、K值确定：二、轮廓系数：三、Canopy算法配合初始聚类：1、Canopy简介：2、Canopy+Kmeans：四、Calinski-Harabasz Index：K-m...

2018-07-02 17:55:12 54512

原创算法中各种距离的介绍

一、欧氏距离(Euclidean Distance)：欧氏距离是最容易直观理解的距离度量方法，我们小学、初中和高中接触到的两个点在空间中的距离一般都是指欧氏距离。二维平面上点a(x1,y1)与b(x2,y2)间的欧氏距离:d_{12}=\sqrt{(x_1-x_2)^2+(y_1-Y2)^2}三维空间点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离:d...

2018-07-02 16:02:37 5607

原创 Scikit-learn系列进阶介绍

1-1 Scikit-learn的数据集API简介一、数据集的概念：二、Sklearn常用数据集一览三、自带的小数据集（返回的是bunch对象，是字典类型）1-2： Scikit-learn的API应用一、Scikit-learn的数据集API应用：1-3： Scikit-learn的模型选择1-4： Scikit-learn的数据验证一、简单交叉验证二、留一法...

2018-07-01 18:02:43 1067

原创机器学习之数据预备、清洗与特征工程

一、概念：数据预处理：将未加工数据转换成适合分析的形式，包括多数据源的数据融合、数据清洗、维规约等等。二、为什么要进行预处理： 1-1 数据预处理简介原始数据普遍存在问题，必须加以处理才能用于分析，一方面要提高数据质量，另一方面为了更好的使数据适应特定的数据挖掘技术及工具。举例①：将连续值(长度)转化为离散的分类值属性（短，中，长），以便应用特定算法模型。举例...

2018-07-01 17:06:18 2076

原创爬虫获取：解决动态加载数据和frame框架问题

仅供学习参考以网易云排行榜为例from selenium import webdriverimport timedriver = webdriver.Chrome()driver.get('https://music.163.com/#/discover/toplist')driver.maximize_window()# # 方法一# # 获取frame## 直接切换到...

2018-07-01 13:59:57 5923

原创用selenium 爬取世纪佳缘信息

仅供参考，以学习为主一、用selenium获取用户的个人连接地址，并保存到excel中脚本名：url.pyimport requestsfrom bs4 import BeautifulSoupimport chardetimport randomimport openpyxlfrom openpyxl import load_workbookimport refrom ...

2018-07-01 13:56:00 1279

原创用selenium模拟登录百度

仅供学习参考下面要输入自己的用户名和密码from selenium import webdriverimport timefrom selenium.webdriver.common.action_chains import ActionChainsdiver = webdriver.Chrome()diver.maximize_window()url = "https://w...

2018-07-01 13:44:46 1181

原创《算法图解》笔记总结

一、二分查找1、二分查找2、大 O 表示法二、选择排序1、链表2、数组三、递归1、递归2、基线条件和递归条件3、栈调用栈四、快速排序五、散列表（）1、散列表2、冲突六、广度优先搜索文章摘自《算法图解》作者Aditya Bhargava一、二分查找1、二分查找定义：二分查找是一种算法，其...

2018-06-30 20:31:50 963 2

原创爬虫的编码解码

python3 对百度首页内容进行解码编码import requestsimport chardet# decode: 解码# encode: 编码r = requests.get('https://www.baidu.com')# 获取对象的编码格式 chardetcode = chardet.detect(r.content)['encoding']# 获取内容# ...

2018-06-28 10:33:09 2298

原创 Python 科学计算库：Numpy的应用

1、统计分析应用文件见附件：data.csv 链接：https://pan.baidu.com/s/191kp22ylN7zimfiy-6UQ9w 密码：z1x4import numpy as np# 加载收盘价和成交量close, amount = np.loadtxt('data/data.csv', delimiter=',', usecols=(6, 7), unpack=...

2018-06-28 10:30:47 436

原创 Python 科学计算库：Numpy介绍和使用

一、Numpy的作用（1）对于同样的数值计算任务，由于NumPy能够直接对数组和矩阵进行操作，可以省略很多循环语句使用NumPy要比直接编写Python代码便捷得多；（2）NumPy中数组的存储效率和输入输出性能均远远优于Python中等价的基本数据结构；（3）NumPy的大部分代码都是用C语言写成的，这使得NumPy比纯Python代码高效得多。二、 NumPy是什么（1...

2018-06-28 10:25:00 4472

原创 matplotlib进阶03--PyEcharts操作

官网链接：http://pyecharts.org/#/zh-cn/charts? 工具：jupyter python环境：python3 安装库： pip install pyecharts 还需要安装第三方库： pip install echarts-countries-pypkg pip install echarts-china-provinces-pypkg pip in...

2018-06-28 10:10:42 859

原创 Mysql数据库的常用操作

一、sql语句介绍：1.DDL数据定义2.DML数据库管理语言(database management language)二、python+mysql1.pymysql的安装2.使用pymysql链接mysql数据库3.执行sql语句4.处理结果集5.如何获取结果集中的表的字段6.关闭游标和连接应用：一、sql语句介绍：1.DDL数据...

2018-06-28 09:44:12 199

原创 python中MongoDB的常用操作

python中MongoDB的常用操作一、环境启动和配置为方便连接MongoDB，给它建一个类，下次用直接调就行：二、MongoDB的常用操作1、导入上面建的连接类2、查询数据3、更新数据4、查询时间戳并格式化输出5、删除数据6、读取文本数据，然后写到数据库中python中MongoDB的常用操作前提：安装pymongo python...

2018-06-28 09:35:18 411

原创机器学习--科学计算库Scipy的进阶应用

机器学习–科学计算库Scipy的进阶应用一、简单的直方图二、检测数据样本和正太分布的拟合程度三、scipy图像处理四、scipy音频处理五、Scipy实际应用机器学习–科学计算库Scipy的进阶应用一、简单的直方图from scipy import stats as stfrom matplotlib import pyplot as ...

2018-06-28 08:59:21 647

原创机器学习--科学计算库Scipy的简单应用

机器学习–科学计算库Scipy的简单应用01.文件加载和保存02.生成随机数组03.计算随机样本的峰度04.例题机器学习–科学计算库Scipy的简单应用01.文件加载和保存from scipy import ioimport numpy as npa = np.arange(9).reshape(3,3)# 用scipy中的io模块将...

2018-06-28 08:55:28 429

原创 MongoDB常用操作

MongoDB简介： MongoDB是非关系型数据库，NoSQL，面向文档，其内存储的是一种json-like结构化数据，它介于关系数据库和非关系数据库之间。主要解决： a、对数据库高并发的需求 b、对海量数据的高效率存储和访问的需求 c、对数据库的高可扩展性和高可用性的需求一、MongoDB安装下载地址：https://www.mongodb.com/download-c...

2018-06-28 08:49:12 233 1