2018年07月_平原2018

12月 11月 10月 09月 08月 07月 06月

原创机器学习之各种熵的总结

一、什么是熵物理学上，熵 Entropy 是“混乱” 程度的量度。系统越有序，熵值越低；系统越混乱或者分散，熵值越高信息理论： 1、当系统的有序状态一致时，数据越集中的地方熵值越小，数据越分散的地方熵值越大。这是从信息的完整性上进行的描述。 2、当数据量一致时，系统越有序，熵值越低；系统越混乱或者分散，熵值越高。这是从信息的有序性上进行的描述。假如事件A的分类划分是（A1,...

2018-07-21 20:58:10 2071

原创机器学习之逻辑回归

一、基本概念1、什么是逻辑回归2、逻辑回归损失函数推导3、梯度下降法求解二、对比分析1、逻辑回归的优缺点2、与线性回归的区别逻辑回归：解决分类问题一、基本概念1、什么是逻辑回归逻辑回归在某些书中也被称为对数几率回归，明明被叫做回归，却用在了分类问题上，我个人认为这是因为逻辑回归用了和回归类似的方法来解决了分类问题。假设有一个二...

2018-07-20 20:52:41 548

原创机器学习之常见聚类方法

一、kmeans1、算法流程2、使用距离3、k值的选择4、算法优化5、K-means 附加问题二、层次聚类1、流程：2、层次聚类方法三、基于密度（DBSCAN）1、定义2、流程3、K-means与DBSCAN的区别一、kmeans1、算法流程1.选择聚类的个数k（kmeans算法传递超参数的时候，只需设置最大的K...

2018-07-17 18:05:34 2026

转载集成学习之Adaboost算法原理

内容来自http://www.360doc.com/content/14/1109/12/20290918_423780183.shtml一、Adaboost的原理1.1 Adaboost是什么AdaBoost，是英文”Adaptive Boosting”（自适应增强）的缩写，由Yoav Freund和Robert Schapire在1995年提出。它的自适应在于：前一个基本分类器...

2018-07-16 20:59:34 607 1

原创机器学习之XGBoost集成算法、牛顿法

一、XGBoost算法基本构成 boosted tree作为有监督学习算法有几个重要部分：模型、参数、目标函数、优化算法模型模型指给定输入x如何去预测输出y 参数参数指我们需要学习的东西，在线性模型中，参数指我们的线性系数w 目标函数目标函数：损失 + 正则，教我们如何去寻找一个比较好的参数一般的目标函数包含下面两项: Bias-variance...

2018-07-15 15:15:59 1155

转载泰勒级数详解

泰勒公式一句话描述：就是用多项式函数去逼近光滑函数。先来感受一下：定理：设 n 是一个正整数。如果定义在一个包含 a 的区间上的函数 f 在 a 点处 n+1 次可导，那么对于这个区间上的任意 x，都有 f(x)=f(a)+f′1!(x−a)+f(2)(a)2!(x−a)2+...+fn(a)n!(x−a)n+Rn(x)f(x)=f(a)+f′1!(x−a)+f(2)(a)2!(...

2018-07-15 13:40:17 38755 1

原创机器学习之凸优化、贝叶斯网络、奇异值分解（SVD）

一、凸优化1、概念1.1仿射集定义1.2 凸集1.3 锥定义2、凸优化二、贝叶斯网络通过贝叶斯网络判定的条件独立(1）形式1：head-to-head(2) 形式2：tail-to-tail(3) 形式3：head-to-tail三、SVD奇异值分解3.1 奇异值分解例子：3.2 SVD概念及理解一、凸优化1、概念...

2018-07-14 11:47:55 1361

转载机器学习之集成学习

一、集成算法（Ensemble Algorithms）综述二、关于基础分类器结果整合的主要方式1. 对于回归预测（数值预测）2. 对于分类（类别预测）3、Bootstrap算法（1）、基于Bootstrap 的Bagging 算法（2）基于Bagging的Random Forest4、Boosting算法（1）、基于Boosting的AdaBoost5、Stacki...

2018-07-13 17:11:21 897

转载机器学习之协方差矩阵、黑塞矩阵、标准差椭圆和EM算法

一、统计学的基本概念学过概率统计的孩子都知道，统计里最基本的概念就是样本的均值，方差，或者再加个标准差。首先我们给你一个含有n个样本的集合X={X1,…,Xn}，依次给出这些概念的公式描述，这些高中学过数学的孩子都应该知道吧，一带而过。均值： X¯=∑ni=1XinX¯=∑i=1nXin\bar{X}=\frac{\sum_{i=1}^n X_{i}}{n} 标准差： s=∑n...

2018-07-11 20:33:58 4742

原创协方差求解

协方差求解 xi=(1,2,3,4)T,x2=(3,4,1,2)T,x3(2,3,1,4)Txi=(1,2,3,4)T,x2=(3,4,1,2)T,x3(2,3,1,4)Tx_i=(1,2,3,4)^T,x_2=(3,4,1,2)^T,x_3(2,3,1,4)^T 问题转化为 cov(z)=⎡⎣⎢132243311424⎤⎦⎥cov(z)=[123434122314]cov(z)=\l...

2018-07-11 17:24:38 455

原创过拟合、正则化和损失函数

一、过拟合：过度的拟合了训练数据，而没有考虑到泛化能力。模型在训练集上表现很好，但是在交叉验证集上表现先好后差。这也正是过拟合的特征！发生过拟合的主要原因可以有以下三点：（1）数据有噪声（2）训练数据不足，有限的训练数据（3）训练模型过度导致模型非常复杂二、正则化：一、概念L1范数：当p=1时，是L1范数，其表示某个向量中所有元素绝对...

2018-07-10 20:54:16 5942

原创机器学习之SVM(支持向量机)算法详解

1-1 基本流程一、概念：SVM：寻找到一个超平面使样本分成两类，并且间隔最大。而我们求得的w就代表着我们需要寻找的超平面的系数与超平面的距离表示分类的确信度，距离越远则分类正确的确信度越高超平面方程一条直线方程，其中m是斜率， c是直线在y轴的截距：y = mx + c超平面的一般方程如下： wTx=0wTx=0w^Tx=0 其中w和x是向量， w...

2018-07-10 20:03:09 1813

原创条件概率公式图解推导

废话不多，先上贝叶斯公式：众所周知由P(AB)=P(A|B)P(B)=P(B|A)P(A)P(AB)=P(A|B)P(B)=P(B|A)P(A)P(AB)=P(A|B)P(B)=P(B|A)P(A) 得出贝叶斯公式 P(A|B)=P(A)P(B|A)P(B)P(A|B)=P(A)P(B|A)P(B)P(A|B)= \frac{P(A)P(B|A)}{P(B)} 原来一直不理解P(AB...

2018-07-08 12:40:36 37768 12

原创关联规则--Apriori算法

一、算法原理：应用：关联规则挖掘，发现事物之间的内在联系超市每天都收集大量的顾客购物数据，称其为购物篮交易（market basket transaction)。表中每一行对应一个交易，包含一个唯一标识TID和特定顾客购买的商品集合。 ①支持度： P(A ∩ B)，既有A又有B的概率 ②置信度： P(B|A)，在A发生的事件中同时发生B的概率 p(AB)/P(A) ...

2018-07-07 13:46:00 2943

原创 PageRank算法

一、算法原理：1、如果一个网页被很多其他网页链接到的话说明这个网页比较重要，也就是PageRank值会相对较高 2、如果一个PageRank值很高的网页链接到一个其他的网页，那么被链接到的网页PageRank值也会相应提高。例子：如果一个网页有k条出链，那么跳转任意一个出链上的概率是1/k ；如果用n表示网页的数目，则转移矩阵M是一个n*n的方阵；如果网页j有k个出链，那么对每一...

2018-07-07 11:59:29 1335

原创机器学习之朴素贝叶斯算法详解

1-1 基本流程朴素贝叶斯公式： P(A|B)=P(A)P(B|A)P(B)P(A|B)=P(A)P(B|A)P(B)P(A|B) = \frac{P(A)P(B|A)}{P(B)}一、概率基础知识：条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为： P(A|B)，读作“在B条件下A的概率”。若只有两个事件A， B，那么： P(AB)=P...

2018-07-05 19:39:13 43058 4

原创机器学习之决策树算法详解

1-1 基本流程一、概念：决策树：是一种树形结构，其中每个内部节点表示一个属性上的判断，每个分支代表一个判断结果的输出，最后每个叶节点代表一种分类结果，本质是一颗由多个判断节点组成的树。二、划分依据：①熵物理学上，熵 Entropy 是“混乱” 程度的量度。系统越有序，熵值越低；系统越混乱或者分散，熵值越高信息理论： 1、当系统的有序状态一致时，数据越集中...

2018-07-04 19:18:37 24413 2

原创机器学习之KNN（k近邻）算法详解

1-1 机器学习算法分类一、基本分类：①监督学习（Supervised learning）数据集中的每个样本有相应的“正确答案”，根据这些样本做出预测，分有两类：回归问题和分类问题。步骤1：数据集的创建和分类步骤2：训练步骤3：验证步骤4：使用（ 1）回归问题举例例如：预测房价，根据样本集拟合出一条连续曲线。（ 2） ...

2018-07-03 17:28:25 149591 16

原创机器学习之k-means算法详解

K-means算法（无监督算法，聚类算法）1-1 基本流程一、概念：二、主要特点：三、算法流程：kmeans作用：去除奇异值小结：1-2 算法效果衡量标准一、K值确定：二、轮廓系数：三、Canopy算法配合初始聚类：1、Canopy简介：2、Canopy+Kmeans：四、Calinski-Harabasz Index：K-m...

2018-07-02 17:55:12 54515

原创算法中各种距离的介绍

一、欧氏距离(Euclidean Distance)：欧氏距离是最容易直观理解的距离度量方法，我们小学、初中和高中接触到的两个点在空间中的距离一般都是指欧氏距离。二维平面上点a(x1,y1)与b(x2,y2)间的欧氏距离:d_{12}=\sqrt{(x_1-x_2)^2+(y_1-Y2)^2}三维空间点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离:d...

2018-07-02 16:02:37 5607

原创 Scikit-learn系列进阶介绍

1-1 Scikit-learn的数据集API简介一、数据集的概念：二、Sklearn常用数据集一览三、自带的小数据集（返回的是bunch对象，是字典类型）1-2： Scikit-learn的API应用一、Scikit-learn的数据集API应用：1-3： Scikit-learn的模型选择1-4： Scikit-learn的数据验证一、简单交叉验证二、留一法...

2018-07-01 18:02:43 1067

原创机器学习之数据预备、清洗与特征工程

一、概念：数据预处理：将未加工数据转换成适合分析的形式，包括多数据源的数据融合、数据清洗、维规约等等。二、为什么要进行预处理： 1-1 数据预处理简介原始数据普遍存在问题，必须加以处理才能用于分析，一方面要提高数据质量，另一方面为了更好的使数据适应特定的数据挖掘技术及工具。举例①：将连续值(长度)转化为离散的分类值属性（短，中，长），以便应用特定算法模型。举例...

2018-07-01 17:06:18 2076

原创爬虫获取：解决动态加载数据和frame框架问题

仅供学习参考以网易云排行榜为例from selenium import webdriverimport timedriver = webdriver.Chrome()driver.get('https://music.163.com/#/discover/toplist')driver.maximize_window()# # 方法一# # 获取frame## 直接切换到...

2018-07-01 13:59:57 5923

原创用selenium 爬取世纪佳缘信息

仅供参考，以学习为主一、用selenium获取用户的个人连接地址，并保存到excel中脚本名：url.pyimport requestsfrom bs4 import BeautifulSoupimport chardetimport randomimport openpyxlfrom openpyxl import load_workbookimport refrom ...

2018-07-01 13:56:00 1279

原创用selenium模拟登录百度

仅供学习参考下面要输入自己的用户名和密码from selenium import webdriverimport timefrom selenium.webdriver.common.action_chains import ActionChainsdiver = webdriver.Chrome()diver.maximize_window()url = "https://w...

2018-07-01 13:44:46 1181