自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

从此醉

路漫漫其修远兮 吾将上下而求索

  • 博客(30)
  • 收藏
  • 关注

原创 Markdown数学公式语法速查

markdown数学公式语法速查

2022-05-09 07:42:04 427

原创 权重计算(1)——客观赋权法

本文首先分类介绍主客观赋权法,然后简述四种客观赋权法的算法步骤,分别给出python代码。

2022-04-08 10:50:29 17631 1

原创 Kaggle系列(3)- Telco Customer Churn

Kaggle中的电信用户流失数据集分析

2022-03-31 11:44:19 1903

原创 Kaggle系列(2)- Predict Future Sales

时间序列的预测问题,主要注意时间序列特征的构造,数据预处理。

2022-03-29 16:41:30 1733 1

原创 pandas中聚合函数agg的用法

pandas中的聚合函数agg的用法

2022-03-07 17:13:32 8651 1

原创 jupyter notebook安装与配置

文章目录0x01、jupyter notebook的安装0x02、配置远程访问2.1 生成配置文件2.2 生成密码2.3 修改配置文件0x03、更改默认的目录0x04、主题配置4.1 安装jupyter主题4.2 更换jupyter主题电脑用了很多年了,原来的8G内存也不那么够用,安装Ubuntu的桌面版虚拟机后消耗资源比较大,导致虚拟机和主机都很卡。所以打算安装Ubuntu Server 20.04 虚拟机,在主机的浏览器上使用jupyter notebook,这样分配给虚拟机的CPU和内存可以大大减少

2021-07-26 18:32:45 957

原创 设计模式简述

0x01、设计模式概述0x02、设计模式六大原则单一职责原则里氏代换原则依赖倒置原则接口隔离原则迪米特原则开闭原则0x03、创建型模式对对象实例化过程的抽象,通过采用抽象类所定义的接口。封装了系统中对象如何创建、组合等信息。1、抽象工厂模式提供创建一组或者一系列相关的或相互依赖对象的接口。优点:分离了具体类更容易在产品系列中进行转换提高了产品间一致性缺点:难以支持新的产品等级结构,支持新的产品等级结构就要扩展抽象工厂接口适用场景:系统独立于产品的创建

2020-10-24 17:13:18 165

原创 Kaggle系列(1)——Titanic

机器学习系列(14)——Kaggle项目之Titanic文章目录机器学习系列(14)——Kaggle项目之Titanic0x01、项目介绍0x02、学习过程简述0x03、数据探索与分析1、数据探索2、分析过程0x03、预处理0x04、第一个模型0x05、模型优化0x05、模型融合参考文献0x01、项目介绍学习了各种机器学习算法之后,可以找一个简单项目来练练手,感受一下完整的ML过程。Titanic是Kaggle的入门项目,网上可以找到很多资料,所以选择它作为第一个练手的项目。(记录一下哈哈哈,截止到2

2020-10-12 18:11:27 2094 3

原创 机器学习系列(14)——K均值聚类

本文介绍K均值(KMeans)聚类算法。0x01、K均值聚类简介K均值聚类是基于样本集合划分的聚类算法。K均值聚类将样本集合划分为K个子集,构成K个类,将n个样本分到K个类中,每个样本到其所属类的中心的距离最小。每个样本只能属于一个类,所以K均值聚类是硬聚类。1、模型0x020x030x04...

2020-09-19 23:24:41 3711

原创 机器学习系列(13)—— 聚类基础知识和层次聚类

本文介绍聚类的基础知识和层次聚类算法。0x01、聚类的基本概念聚类是针对给定的样本,依据它们特征的相似度或距离,将其归并到若干个“类”或“簇”的数据分析问题。一个类是给定样本集合的一个子集。直观上,相似的样本聚集在相同的类,不相似的样本分散在不同的类。这里,样本之间的相似度或距离起着重要作用。聚类的目的是通过得到的类或簇来发现数据的特点或对数据进行处理,在数据挖掘、模式识别等领域有着广泛的应用。聚类属于无监督学习,因为只是根据样本的相似度或距离将其进行归类,而类或簇事先并不知道。常用的聚类.

2020-09-19 13:06:38 1989

原创 机器学习系列(12)——逻辑回归

逻辑回归

2020-09-15 00:06:31 3116

原创 机器学习系列(11)——支持向量机

本文介绍支持向量机(SVM)的算法,及其在sklearn中的实现。0x01、支持向量机(SVM)简介支持向量机(support vector meahines,SVM)是一种二分类模型。它的基本模型是定义在特定空间上的间隔最大的线性分类器。支持向量机的学习策略就是间隔最大化,可形式化为一个求解凸二次规划(convex quadratic programming)的问题,也等价于正则化的合页损失函数的最小化问题。支持向量机的学习算法是求解凸二次规划的最优化算法。支持向量机的学习方法包含构建由.

2020-09-08 23:06:38 1715

原创 机器学习系列(10)——感知机

本文介绍感知机模型和算法。0x01、感知机简介感知机(perceptron)是二类分类的线性分类模型,其输入为实例的特征向量,输出为示例的类别,取+1、-1 二值。感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型。感知机旨在求出将训练数据进行线性划分的分离超平面,为此导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得感知机模型。感知机算法简单而易于实现,分为原始形式和对偶形式。感知机预测时用学习得到的感知机模型对新的输入实例进行分类。它是神经.

2020-08-30 22:49:31 492

原创 机器学习系列(9)——XGBoost算法

XGBoost

2020-08-30 16:33:59 1315

原创 机器学习系列(8)——提升树与GBDT算法

GBDT

2020-08-27 23:37:56 386

原创 机器学习系列(7)——提升方法与AdaBoost算法

GBDT(Gradient Boosting Decision Tree, 梯度提升树)

2020-08-27 00:09:46 325

原创 机器学习系列(6)——集成学习方法与随机森林

GBDT(Gradient Boosting Decision Tree, 梯度提升决策树)是很流行的

2020-08-25 16:50:57 937

原创 机器学习系列(5)——模型评估与选择方法

本文介绍模型评估与性能度量方法。0x01、经验误差与过拟合0x02、0x03、0x04、

2020-08-23 14:55:16 1085

原创 机器学习系列(4)——朴素贝叶斯法

本文介绍朴素贝叶斯分类器算法,及其在sklearn中的实现。0x01、朴素贝叶斯法简介朴素贝叶斯(naive Bayes)法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入输出的联合概率分布,然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。(1)朴素贝叶斯法是典型的生成学习方法。生成方法由训练数据学习联合概率分布 ,然后求得后验概率分布 。具体来说,利用训练数据学习 和 的估计,得到联合概率分布:。概率估计...

2020-08-22 17:23:33 2676

原创 机器学习系列(3)——k近邻法(k-NN)

本文介绍k近邻法(k-nearest neighbor, k-NN)0x01、k近邻法简介k近邻法是基本且简单的分类与回归方法。k近邻法的基本做法是:对给定的训练实例点和输入实例点,首先确定输入实例点的k个最近邻训练实例点,然后利用这k个训练实例点的类的多数来预测输入实例点的类。k近邻模型对应于基于训练数据集对特征空间的一个划分,k近邻法中,当训练集,距离度量,k值及分类决策规则确定后,其结果唯一确定。常用的距离度量是欧氏距离及更一般的 距离。k 值小时,k近邻模型更复杂,k值大时,k近..

2020-08-22 15:00:03 1415

原创 机器学习系列(2)——CART算法

CART(Classification and Regression Tree,分类与回归树)算法

2020-08-20 23:11:52 8524

原创 机器学习系列(1)——决策树的简单总结

文章目录0x01、决策树的基本概念1.1 Hunt算法1.2 决策树归纳的设计问题1.3 决策树归纳算法的框架0x02、决策树的过拟合2.1 泛化误差估计2.2 过拟合的处理方法0x03、评估分类器的性能0x04、决策树的总结4.1 决策树算法的要点4.2 算法比较4.3 决策树算法的优缺点参考资料本文主要是对决策树的概念性的归纳和总结。0x01、决策树的基本概念决策树是一种由结点和有向边组成的层次结构。树中包含三种结点:根结点、内部结点和叶结点。决策树通常采用贪心策略,在选择划分数据的属性时,采取

2020-08-15 22:54:56 4180

原创 pandas功能和用法

在数据分析中经常要用到几个包:numpy,pandas,scipy,matplotlib。其中pandas可以高效地操作大量数据集,便捷快速地处理数据。但是由于使用SQL比较多,pandas用的真的很少,所以总会忘记用法。这里对pandas的功能用法做个梳理和总结。参考:https://blog.csdn.net/yiyele/article/details/80605909pand...

2020-08-13 07:28:51 1274

原创 python3使用matplotlib绘图的简要记录

Python -matplotlib绘图matplotlib 2.3.3文档:https://matplotlib.org/users/index.html一、matplotlib APImatplotlib.pyplot能够输出MATLAB风格的图片。1、Figure 和 subplot2、颜色、标记和线型3、刻度、标签和图例4、注解及...

2020-04-01 21:43:36 506

原创 手机安装和配置Termux

最近发现了一个神器Termux,无需root就可以在手机上模拟Linux终端,于是下载安装来玩玩。关于Termux有一篇很好的文章:Termux 高级终端安装使用配置教程,有关Termux的科普和操作可以直接看这篇文章。以下是我的安装和配置步骤。主要是修改软件源,安装vim、python、nmap、sqlmap和Metasploit,以后慢慢探索Termux的更多玩法。1. 下载安装...

2019-10-26 23:58:43 7304

原创 armhf架构下ubuntu 18.04 系统安装scikit-learn

手机上装了LinuxDeploy后,就可以在手机上玩Linux了 :) 记录下我的安装过程。1、Ubuntu系统的安装配置,几个地方注意:(1)容器类型:chroot(默认),架构:armhf(默认),发行版选 bionic;(2)源地址:(中科大源)http://mirrors.ustc.edu.cn/ubuntu-ports/ 【本来应该使用https的,但即使用了htt...

2019-06-01 06:11:03 2349

原创 使用Cloudera-QuickStart-VM的一些个人配置

最近为了学习Cloudera,在官网下载了一个配置好的CDH环境VMWare虚拟机。它是基于CentOS6环境的,CDH版本是5.13.0。使用中才发现尽管它把Cloudera Manager 等组件都已经安装好了,也可以一键启动,但是要用于开发学习,还是需要自己花一番功夫自己配置开发环境。下面是我的配置步骤。1、更新系统。运行如下命令$ sudo yum makecache$ ...

2019-05-31 23:21:25 2735

原创 Ubuntu 18.04安装hive、spark和kafka

最近因为要学spark又开始玩linux了,在电脑上安装了VM Player 和 Ubuntu 18.04 - server开始折腾。为了安装spark、hive前需要先安装java,hadoop和scala,安装kafka前需要先安装Zookeeper。这里仅仅只是安装成功,使之能跑起来,不涉及其他配置和性能调优等。使用的版本如下:java版本:jdk-8u181-linux-x64.t...

2018-09-11 13:49:14 2087 7

原创 在CentOS6.9上编译Python2.7.12--步骤及注意事项

在CentOS6.9上编译Python2.7.12的步骤、遇到的问题及解决方法

2017-04-25 14:02:46 1257

原创 XSS学习笔记(1)

XSS的相关重要概念及简单例子

2016-03-27 23:47:32 575

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除