Vincent_Chu-CSDN博客

原创 [DA45] 信用卡诈骗分析

一. 相关介绍 (一) 类不平衡问题在机器学习分类任务中, 类别不平衡是指不同类别的训练样例数差别很大. 解决类不平衡问题的方法有过抽样、欠抽样、阈值移动和组合方法等, 一般来讲后两种方法的效果高于前两种方法. 更多详细内容请查看百度百科:类不平衡问题 (二) 精确率 - 召回率曲线 sklearn ...

2019-06-28 22:24:29 381

转载 [转] 使用 Keras 搭建深度学习网络做手写数字识别

一. 如何理解 CNN 网络中的卷积作用 CNN 的网络结构由三种层组成，它们分别是卷积层、池化层和全连接层。卷积层相当于滤镜的作用，它可以把图像分块，对每一块的图像进行卷积操作。假设有一个二维的图像 X 和卷积 K，把二维矩阵 X 进行卷积 K 操作之后，可以得到矩阵 Z，如下图所示：它的计算原理如下: 第一步，需要将卷积核翻转 180 度（只有翻...

2019-06-06 23:44:14 702 1

原创 [DA45] 时间序列预测上证指数

一. 相关介绍 (一) 时间序列时间序列是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列. 时间序列分析的主要目的是根据已有的历史数据对未来进行预测. 经济数据中大多数以时间序列的形式给出. 根据观察时间的不同, 时间序列中的时间可以是年份、季度、月份或其他任何时间形式. (摘自百度百科) (二) 常用时间序列模型 1. 平稳...

2019-06-05 21:02:32 2910

原创 [DA45] 数据分类 GridSearchCV 参数调优练习

一. 练习背景在做分类算法的时候经常需要调节模型的构造参数以得到更好的分类结果. 但每一个分类算法有很多参数, 手动调参会非常耗时. Python 给我们提供了一个很好用的工具 GridSearchCV, 它是 python 的参数自动搜索模块. 工具使用的参数和方法可以参考:https://blog.csdn.net/tensorflow66/articl...

2019-06-04 01:15:38 1458

转载 [转] AdaBoost 与决策树模型的比较

在 sklearn 中 AdaBoost 默认采用的是决策树模型，我们可以随机生成一些数据，然后对比下 AdaBoost 中的弱分类器（也就是决策树弱分类器）、决策树分类器和 AdaBoost 模型在分类准确率上的表现。如果想要随机生成数据，我们可以使用 sklearn 中的 make_hastie_10_2 函数生成二分类数据。假设我们生成 12000 个数据，取前 2000...

2019-06-03 21:43:10 1950

原创 [DA45] 使用python对歌手歌曲做词云展示

一. 词云介绍词云也叫文字云, 它帮助我们统计文本中高频出现的词, 过滤掉某些常用词后将文本中的重要关键词进行可视化, 方便分析者更好更快地了解文本的重点, 同时还具有一定的美观度. python 提供了词云工具 wordcloud , 通过 from wordcloud import WordCloud 导入 WordCloud 类, 它的主要构造方法如下:...

2019-06-02 00:38:38 896

原创 [DA45] 使用PageRank算法分析希拉里邮件中的人物关系

一. 相关知识 (一) PageRank算法 PageRank 算法是 google 公司的创始人拉里·佩奇和谢尔·盖布林于1998年提出的网页搜索优化算法. 详细内容请见百度百科:google pagerank. 如果你了解了该算法, 就能明白上一段的超链接从本页面链出, 链入百度百科的 PageRank 算法页面增加了该页面...

2019-06-01 21:30:33 2293 1

原创 [DA45] 用EM算法对王者荣耀英雄进行划分

一. 相关介绍 (一) EM 算法 EM 是聚类方法的一种.EM 分为两个步骤: E 步相当于通过初始化的参数来估计隐含变量, M 步是通过隐含变量来反推优化参数. 最后通过EM 步骤的迭代得到最终的模型参数. (二) GMM 模型 GMM 模型中文名为高斯混合模型, 是EM 算法的一种. 在python 的机器学习工...

2019-05-23 00:30:17 942

原创 [DA45] 使用K-Means进行简单图像分割

聚类的一个常用场景是对图像进行分割. 图像分割就是利用图像自身的信息, 比如颜色、纹理、形状等特征进行划分, 将图像分割成不同的区域, 划分出来的每个区域就相当于是对图像中的像素进行了聚类. 单个区域内的像素之间的相似度大, 不同区域间的像素差异性大. 这个特性正好符合聚类的特性, 所以可以把图像分割看成是将图像中的信息进行聚类. 本例通过使用...

2019-05-12 23:44:08 615

原创 [DA45] 使用SVM进行乳腺癌检测

数据集来自美国威斯康星州的乳腺癌诊断数据集. 由于数据特征较多, 本例使用相关性分析与主成分分析两种方法进行降维了处理, 再通过SVM支持向量机模型对数据进行了分类.一. 数据预处理加载数据后对数据进行探索, 可以看到数据可以分为5类: (一) ID (二) diagnose 诊断结果. 其中'B'代表良性, 包含35...

2019-05-09 21:07:16 2569

原创 [DA45] 泰坦尼克乘客生存预测

一. 数据来源泰坦尼克生还预测是kaggle的入门级经典案例之一, 目前网上利用机器学习方法对泰坦尼克数据集的案例已数不胜数. 本章为作者数据分析日常练习, 利用ID3决策树进行泰坦尼克乘客生存预测.二. 数据分析 (一) 数据加载与探索使用python中的pandas工具读取数据训练集(train.csv)与测试集(test.csv)文件, ...

2019-04-27 13:45:34 514 1

原创 [PPB] 使用层次聚类划分基站所在商圈类型

一. 相关背景与方法 1. 数据来源数据来自《Python数据分析与挖掘实战》书第14章, 该章意在使用运营商通过手机基站搜集的用户历史定位数据，采用数据挖掘技术对基站进行分群并对不同的商圈分群进行特征分析，以选取合适的商圈进行促销. 2. 层次聚类层次聚类试图在不同层次对数据集进行划分, 从而形成树形的聚类结构. 数据集的划分可采...

2019-04-17 22:58:35 798

原创 [DA45] 使用apriori分析导演选择演员倾向

Apriori是常用的关联规则挖掘方法之一, 本例为关联规则挖掘实战练习, 通过python自动化爬虫抓取豆瓣电影中某导演的电影名和演员, 通过apriori算法看出来其选择演员的倾向。一. 网络爬虫本例选择冯小刚导演为分析对象, 先进入豆瓣搜索冯小刚, 分析带爬取的网页:1. url分析首页网址为: https://mov...

2019-04-13 23:11:44 1488

原创 [PPB] 使用决策树模型进行空气质量评价

一. 分析背景要客观评价一个地区的环境质量状况, 需要综合考虑各种应诉之间以影响因素与环境质量之间错综复杂的关系. 采用传统的方法存在着一定局限性和不合理性. 因此, 从学术研究的角度对环境评价的技术方法及其理论进行探讨, 寻求更全面客观的新理论方法具有重要的现实意义. 本例通过建立决策树模型, 对数据中空气中相关气体的含量值与对应的空气等级进行分析, 实现对...

2019-04-13 21:23:29 6711 2

原创 [DA45] 使用朴素贝叶斯进行文档分类

一. 相关介绍(一) 朴素贝叶斯朴素贝叶斯分类最适合的场景是文本分类、情感分析和垃圾邮件识别，python 中的 sklearn 机器学习包提供了3种朴素贝叶斯分类算法: 1. 高斯朴素贝叶斯（GaussianNB）适用场景：特征变量是连续变量，符合正态分布。 2.多项式朴素贝叶斯（MultinomialNB）适用场景：...

2019-04-12 00:15:06 579

转载 [转] TEST 数据挖掘知识清单

数据挖掘的基本流程商业理解：数据挖掘不是我们的目的，我们的目的是更好地帮助业务，所以第一步我们要从商业的角度理解项目需求，在这个基础上，再对数据挖掘的目标进行定义。数据理解：尝试收集部分数据，然后对数据进行探索，包括数据描述、数据质量验证等。这有助于你对收集的数据有个初步的认知。数据准备：开始收集数据，并对数据进行清洗、数据集成等操作，完成数据挖掘前的准备工作。模型建立：选择和应用...

2019-04-08 22:17:41 277

Vincent_Chu的博客