自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 数据挖掘实战(二):信用卡欺诈检测

此次信用卡欺诈是采用科赛数据科学社区一个项目的数据集来分析的,具体的数据集可以在这里下载 传送门 数据集有100多M,使用excel打开会有有些卡顿,所以直接在python观察 文章目录数据集解读数据探索数据规范化数据集划分模型创建模型训练评估总结与不足 数据集解读 数据集名称 数据类型 ...

2019-08-08 23:39:24 724 1

原创 二元分类器模型评估指标

文章目录准确率精准率与召回率F1值ROC AUC得分sklearn操作各个指标 准确率 准确率顾名思义就是分类器正确分类的样本数占总体数的比例,虽然准确率可以衡量分类器的整体正确性,但是当类别在总样本中呈偏态分布是,准确率就不是一个很有效的衡量指标,例如信用卡欺诈检测,大多数是合法交易,所以分类器...

2019-08-07 16:44:52 238 0

原创 网格搜索:GridSearchCV函数参数解释及示例

GridSearchCV,网格搜索

2019-08-07 00:16:40 754 0

原创 数据挖掘实战:信用卡违约率分析建模

这次做一个信用卡违约率的分析项目,具体的数据集可以在这里下载 数据集传送门 文章目录提出问题数据集解读数据探索数据处理建模分析缺点与不足 提出问题 总体的违约率情况怎样 什么样的人群容易违约 违约模型的准确率怎样 数据集解读 这是一个台湾银行2005年的信用卡数据,首先观察数据集,了解一下个...

2019-08-06 12:38:22 1322 1

原创 机器学习(四):K-means聚类算法

文章目录K-means介绍K-means原理Sklearn实现K-means的优缺点优点缺点K-means与KNN的区别 K-means介绍 这是写机器学习笔记以来的第一个无监督学习算法,最常见的无监督学习就是聚类,也就是将无标记的数据分成几种集群,这些集群是根据某种相似度指标进行划分的。例如欧式...

2019-08-05 16:14:24 154 0

原创 机器学习(三):SVM支持向量机

文章目录支持向量机介绍支持向量机原理SVM做分类SVM回归示例SVM做回归SVM回归示例SVM优缺点SVM优点SVM缺点 支持向量机介绍 支持向量机(Support Vectoc Machine,SVM)是一种强大的用于分类和回归的模型,十大数据挖掘算法之一。SVM是很好的现成分类器,即可以不加修...

2019-08-03 16:59:36 198 0

原创 sklearn的pipeline管道机使用及原理

在使用机器学习的时候,往往需要对数据进行规范化处理,每一步都需要去执行,上一步执行完的数据传递给下一步执行数据,每一步生成的数据需要用一个变量来存储,这样子会繁琐的多,所幸,python有pipline管道机制 Pipeline管道机制 Pipeline管道机制,顾名思义,它就像水管一样,数据就像...

2019-08-01 14:08:06 617 0

原创 数据降维:PCA主成分分析降维示例及函数参数解释

文章目录主成分分析(PCA)介绍PCA转化步骤PCA示例sklearn中的PCAPCA优缺点优点缺点 主成分分析(PCA)介绍 PCA也被叫做卡尔胡宁-勒夫转换(KLT),是一种用户在高维空间发现模式的技术。PCA常被用于探索和可视化高纬度数据集。PCA可以压缩数据,也就是所谓的数据降维。数据降维...

2019-08-01 00:30:24 999 0

原创 机器学习(二):朴素贝叶斯算法

文章目录朴素贝叶斯介绍原理实现python代码实现scikit-learn实现总结 朴素贝叶斯 介绍 朴素贝叶斯是一个使用贝叶斯定理进行建模的分类器。属于分类算法一列,它是基于贝叶斯定理和一个朴素的假设,即所有的特征都相互独立于其他给定的响应变量。而朴素贝叶斯还有一个假设就是每个特征同等重要。尽管...

2019-07-07 22:02:16 343 0

原创 数据预处理--One-hot编码

文章目录原理实现与pandas.get_dummies()的区别 原理 当我们遇到的变量是标称型变量时,也就是无法比较大小、没有序列性的数据时候,就需要独热编码,独热编码通过将数据进行编码,例如装修类型,分为精装、简装、毛坯三种类型,无法比较大小,只能通过独热编码来表示 实现 这里介绍的one-h...

2019-06-22 17:06:54 404 0

原创 机器学习(一):K-近邻算法(KNN)分类与回归

这是自己的第一篇机器学习的文章,单纯做自己的学习笔记,一起加油进步 K-近邻 算法(KNN)

2019-06-21 18:19:33 2104 0

原创 对广州链家网二手房数据进行分析

上一篇我们利用了python抓取了链家网广州地区的历史二手房数据,上一篇爬虫文章。这次将如何对数据进行分析。 问题定义 对于数据分析,第一步是定义问题,由于数据的获已经固定,所以问题固定住了是在广州地区二手房的问题上,所以我们有如下的问题: 广州二手房各地区的房价概况 各因素对房价的影响程度 给...

2019-06-12 18:06:50 1713 3

原创 deepin安装Pycharm2019并生成桌面图标

使用deepin安装pycharm会与Windows安装不一样,笔者自己安装pycharm,做篇记录 首先到官网下载最新版本的Pycharm,官网下载地址 按照箭头下载安装包 接下来Ctrl+Alt+T快捷键打开控制台 先将压缩包解压并放至/usr/local文件夹下,方便整理 sudo ...

2019-06-05 16:04:58 1399 1

原创 [leecode]Python:766 Toeplitz Matrix托普利茨矩阵

如果一个矩阵的每一方向由左上到右下的对角线上具有相同元素,那么这个矩阵是托普利茨矩阵。 给定一个 M x N 的矩阵,当且仅当它是托普利茨矩阵时返回 True。 示例1 输入: matrix = [ [1,2,3,4], [5,1,2,3], [9,5,1,2] ] 输出: True...

2019-02-27 10:20:22 126 0

原创 [leecode]Python:566. Reshape the Matrix 重塑矩阵

In MATLAB, there is a very useful function called ‘reshape’, which can reshape a matrix into a new one with different size but keep its original data...

2019-02-27 10:00:13 125 0

原创 matplotlib绘图中文出现乱码

在ipython notebook中,我们使用matplotlib进行绘图的时候,中文会无法显示。如图 这是因为matplotlib默认字体不支持汉字,所以需要修改为SimHei字体,代码如下 from pylab import mpl mpl.rcParams['font.sans...

2019-02-18 16:47:11 212 0

原创 MySQL中数值类型常见的问题

MySQL中的数值类型可以由小到大可以分为: tinyint smallint mediunint int bigint 其存储空间大小还有位数如下表 这里显示的位数其实只是决定数据显示的位数,有遇见过在建表的时候将数值类型设置为int,然后在位数值那里设置了15,以为可以将数值提升到15位数...

2019-02-18 10:20:01 498 0

原创 'utf-8' codec can't decode byte 0xb6 in position 0: invalid start byt & excel打开utf-8文件显示乱码问题解决办法

当我们将数据从MongoDB数据库中导出为CSV文件时,使用Excel打开会显示为乱码,如图: 这是由于MongoDB导出的CSV文件默认都是utf-8格式的数据,而我们的Excel打开文件的编码方式时ANSI格式的,也就是说不能够识别我们的汉字,如果想要在Excel中查看我们的数据,可以按照如下...

2019-01-17 16:47:21 3267 0

原创 Python进程池pool使用方法以及map函数用法

在进行多数量的数据爬取时,我们常常需要使用多进程来实现数据爬取。这里我们来看一下python的进程池pool要怎么使用 首先当然是导入相关的库文件 from multiprocessing.pool import Pool 这里我们简单的写一个函数 def hhh(i): return ...

2019-01-15 17:52:56 19148 10

原创 多线程抓取链家网数据

链家网是集房源信息搜索、产品研发、大数据处理、服务标准建立为一体的以数据驱动的全价值链房产服务平台。主营:二手房、租房、新房。通过链家网的数据可以很方便的获取商品房的市场信息 此次目的是抓取链家网广州地区二手房的数据 首先明确步骤: 分析网页 分析数据节点 编写爬虫程序 存储数据 首先分析网页...

2019-01-15 16:12:22 866 1

原创 批量抓取西刺ip并保存到本地

西刺是一个免费提供IP代理的网站,因为所提供的IP数量庞大且免费,可以为有需要的人提供很大的帮助,所以受到了想要获取免费IP人的热捧,这里是它的网站地址 点这里。 话不多说,现在开干 首先观察网页,进入网站,进入开发者模式,选取要爬取的字段,这里确定自己要爬取的是IP的地址、端口、类型 可以...

2019-01-08 10:10:31 654 0

提示
确定要删除当前文章?
取消 删除