自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(68)
  • 收藏
  • 关注

原创 SVM(下):如何进行乳腺癌检测

SVM 是有监督的学习模型,我们需要事先对数据打上分类标签,通过求解最大分类间隔来求解二分类问题。如果要求解多分类问题,可以将多个二分类器组合起来形成一个多分类器。如何在 sklearn 中使用 SVM在 Python 的 sklearn 工具包中有 SVM 算法,首先需要引用工具包:from sklearn import svmSVM 既可以做回归,也可以做分类器。当用 SVM 做回归的时候,我们可以使用 SVR 或 LinearSVR。当做分类器的时候,我们使用的是 SVC 或者 Line

2020-09-17 19:27:58 536

原创 SVM(上):如何用一根棍子将蓝红两色球分开?

SVM 的英文叫 Support Vector Machine,中文名为支持向量机。它是常见的一种分类方法,在机器学习中,SVM 是有监督的学习模型。什么是有监督的学习模型呢?它指的是我们需要事先对数据打上分类标签,这样机器就知道这个数据属于哪个分类。同样无监督学习,就是数据没有被打上分类标签,这可能是因为我们不具备先验的知识,或者打标签的成本很高。所以我们需要机器代我们部分完成这个工作,比如将数据进行聚类,方便后续人工对每个类进行分析。SVM 作为有监督的学习模型,通常可以帮我们模式识别、分类以及回归分

2020-09-17 17:48:59 854

原创 朴素贝叶斯分类(下):如何对文档进行分类

朴素贝叶斯分类最适合的场景就是文本分类、情感分析和垃圾邮件识别。其中情感分析和垃圾邮件识别都是通过文本来进行判断。这三个场景本质上都是文本分类,这也是朴素贝叶斯最擅长的地方。所以朴素贝叶斯也常用于自然语言处理 NLP 的工具。sklearn 机器学习包sklearn 的全称叫 Scikit-learn,它给我们提供了 3 个朴素贝叶斯分类算法,分别是高斯朴素贝叶斯(GaussianNB)、多项式朴素贝叶斯(MultinomialNB)和伯努利朴素贝叶斯(BernoulliNB)。这三种算法适合应用在不

2020-09-16 21:10:52 731

原创 朴素贝叶斯分类(上):如何让机器判断男女?

贝叶斯原理与其他统计学推断方法截然不同,它是建立在主观判断的基础上:在我们不了解所有客观事实的情况下,同样可以先估计一个值,然后根据实际结果不断进行修正。假设有一种病叫做“贝叶死”,它的发病率是万分之一,即 10000 人中会有 1 个人得病。现有一种测试可以检验一个人是否得病的准确率是 99.9%,它的误报率是 0.1%,那么现在的问题是,如果一个人被查出来患有“叶贝死”,实际上患有的可能性有多大?你可能会想说,既然查出患有“贝叶死”的准确率是 99.9%,那是不是实际上患“贝叶死”的概率也是 99.

2020-09-16 17:55:40 826

原创 决策树(下):泰坦尼克号乘客生存预测

决策树算法是经常使用的数据挖掘算法。这是因为他呈现出来比较直观。基于决策树还诞生了很多数据挖掘算法,比如随机森林。sklearn中的决策树模型首先,需要知道sklearn中的自带的决策树分类器DecisionTreeClassifier,方法如下:clf = DecisionTreeClassifier(criterion='entropy')到目前为止,sklearn 中只实现了 ID3 与 CART 决策树,所以我们暂时只能使用这两种决策树,在构造 DecisionTreeClassifier

2020-09-16 14:35:21 485

原创 决策树(中):CART算法,分类回归树

基于信息度量的不同方式,我们可以把决策树分为 ID3 算法、C4.5 算法和 CART 算法。CART 算法,英文全称叫做 Classification And Regression Tree,中文叫做分类回归树。ID3 和 C4.5 算法可以生成二叉树或多叉树,而 CART 只支持二叉树。同时 CART 决策树比较特殊,既可以作分类树,又可以作回归树。首先需要了解的是,什么是分类树,什么是回归树呢?用下面的训练数据举个例子,你能看到不同职业的人,他们的年龄不同,学习时间也不同。如果构造了一棵决策树,

2020-08-20 18:14:19 1109

原创 决策树(上):要不要去打篮球?

决策树的工作原理决策树基本上就是把我们以前的经验总结出来。如果我们要出门打篮球,一般会根据“天气”、“温度”、“湿度”、“刮风”这几个条件来判断,最后得到结果:去打篮球?还是不去?上面这个图就是一棵典型的决策树。**我们在做决策树的时候,会经历两个阶段: ** 构造和剪枝。构造什么是构造呢?构造就是生成一棵完整的决策树。简单来说,构造的过程就是选择什么属性作为节点的过程,那么在构造过程中,会存在三种节点:根节点:就是树的最顶端,最开始的那个节点。在上图中,“天气”就是一个根节点;内部节点:就

2020-08-19 19:07:24 2189

原创 Python数据可视化的10种技能

按照数据之间的关系,我们可以把可视化视图划分为 4 类,它们分别是比较、联系、构成和分布。这四种关系的特点:比较: 比较数据间各类别的关系,或者是它们随着时间的变化趋势,比如折线图;联系: 查看两个或两个以上变量之间的关系,比如散点图;构成: 每个部分占整体的百分比,或者是随着时间的百分比变化,比如饼图;分布: 关注单个变量,或者多个变量的分布情况,比如直方图。同样,按照变量的个数,我们可以把可视化视图划分为单变量分析和多变量分析。单变量分析指的是一次只关注一个变量。 比如我们只关注“身高”这个

2020-08-16 19:26:45 342

原创 数据采集:自动化处理数据

一个数据的走势,是由多个维度影响的。我们需要通过多源的数据采集,收集到尽可能多的数据维度,同时保证数据的质量,这样才能得到高质量的数据挖掘结果。那么,从数据采集角度来说,都有哪些数据源呢?我们将数据源分成了以下的四类。这四类数据源包括了:开放数据源、爬虫抓取、传感器和日志采集。 它们各有特点。开放数据源一般是针对行业的数据库。比如美国人口调查局开放了美国的人口信息、地区分布和教育情况数据。除了政府外,企业和高校也会开放相应的大数据。爬虫抓取,一般是针对特定的网站或 App。如果我们想要抓取指定的网

2020-08-15 16:28:02 1233

原创 pandas 库 系列知识点

在数据分析工作中,Pandas 的使用频率是很高的,一方面是因为 Pandas 提供的基础数据结构 DataFrame 与 json 的契合度很高,转换起来就很方便。另一方面,如果我们日常的数据清理工作不是很复杂的话,你通常用几句 Pandas 代码就可以对数据进行规整。pandas中有Series 和 DataFrame 这两个核心数据结构,他们分别代表着一维的序列和二维的表结构。基于这两种数据结构,Pandas 可以对数据进行导入、清洗、处理、统计和输出。数据结构:Series 和 DataFram

2020-08-10 14:17:52 392

原创 numpy库 系列知识点总结

在 NumPy 里有两个重要的对象:ndarray(N-dimensional array object)解决了多维数组问题ufunc(universal function object)是解决对数组进行处理的函数。ndarray 对象ndarray 实际上是多维数组的含义。在 NumPy 数组中,维数称为秩(rank),一维数组的秩为 1,二维数组的秩为 2,以此类推。在 NumPy 中,每一个线性的数组称为一个轴(axes),其实秩就是描述轴的数量。创建数组import numpy

2020-08-09 14:33:55 311

原创 机器学习模型的分类、模型输出结果、模型的保存、模型加载

机器学习模型的分类机器学习模型有两种形式:参数模型和无参数模型。它们的本质区 别是:参数模型假设函数f(x)有特定的形式,例如线性表达式,而无参 数模型则没有这个要求。两者各有利弊:参数模型的精度略差但可解释性强。很多情况下,由于限制了f(x)的 表达形式,所以参数模型的精确性可能会略差一些,但是好处是简单,可解释性强,例如逻辑回归模型。无参数模型可解释性差但更精确。相反,无参数模型可解释性差一 些,但是大多数情况下可能模型会更精确。参数模型:最简单的参数模型就是线性回归,在回归模型中,假定

2020-08-08 13:44:47 7919

原创 以泰坦尼克号为例构建第一个预测模型

如果把机器学习的最终成果比做为做一道菜的话,那么数 据准备和处理,就相当于买食材并 挑选、洗清、处理食材的过程。一 导包#逻辑回归算法from sklearn.linear_model import LogisticRegression #随机分割数据集from sklearn.model_selection import train_test_split#输出模型评估报告 from sklearn.metrics import classification_report#相当于把“泰坦尼

2020-08-07 20:04:01 763

原创 以泰坦尼克号为例的数据预处理与完整特征工程

我们主要要搞清楚数据处理 的常见处理方法:数据读取单变量探索分析多变量探索分析数据预处理缺失值处理独热编码(针对类别型变量)为什么要对类别变量重新编码?一个最简单的理解就是:机器学习算法要求输入的变量值必须是数值。针对类别型变量,我们必须重新编码,把它们转换为数值型变量,但是信息量还不会丢失。最常用的一种类别变量在机器学习界喜欢叫独热编码(one-hot encoding) 。 独热编码就是把 1 个类别型变量转化为 N 个 0/1 标识变量。类别型变量有多

2020-08-07 13:56:27 3992

原创 基于泰坦尼克号生还遇难案例进行的数据探索和分析

以泰坦尼克号为例:#解决中文乱码问题plt.rcParams['font.sans-serif'] = 'Microsoft YaHei'plt.rcParams['axes.unicode_minus'] = Falseimport matplotlib.pyplot as plt一 加载训练数据titanic_df =pd.read_csv("data/train.csv")titanic_df.head()训练数据及特征说明PassengerId:乘客 IDSurviv

2020-08-06 21:19:51 1323

原创 机器学习相关概念、分类、要解决的任务

一 机器学习相关概念在谈及机器学习的前面,我们先来看一个现实生活中的小实例。比如,先从第一步 “挑芒果”说起。一开始妈妈告诉你: “ 金黄色的要比浅黄的更甜些!”后来你发现:“那些大个儿的、金黄色的芒果一定是甜的,而那些小个儿 的、金黄的就只有一半是甜的了”后来你又发现:“那些小个的、浅黄的芒果是当中最甜的”有一天你去了其他国家,然后你发现:“ 绿色的竟然要比黄色的味道更棒 ”就以上实例,我们可以尝试了解下面相关概念。你在市场上随机选择了一些 不同品种的芒果(我们称之为 训练样本

2020-08-06 20:25:58 1234

原创 Python3 07 基础实例

Python 数字求和# 用户输入数字num1 = input('输入第一个数字:')num2 = input('输入第二个数字:')# 求和sum = float(num1) + float(num2)# 显示计算结果print('数字 {0} 和 {1} 相加结果为: {2}'.format(num1, num2, sum))执行以上代码输出结果为:输入第一个数字:1.5输入第二个数字:2.5数字 1.5 和 2.5 相加结果为: 4.0Python 平方根平方根,又叫

2020-08-04 18:06:59 629

原创 Python3 06 面向对象、标准库概览

Python3 面向对象类(Class): 用来描述具有相同的属性和方法的对象的集合。它定义了该集合中每个对象所共有的属性和方法。对象是类的实例。类变量: 类变量在整个实例化的对象中是公用的。类变量定义在类中且在函数体之外。类变量通常不作为实例变量使用。数据成员: 类变量或者实例变量用于处理类及其实例对象的相关的数据。方法重写:如果从父类继承的方法不能满足子类的需求,可以对其进行改写,这个过程叫方法的覆盖(override),也称为方法的重写。局部变量: 定义在方法中的变量,只作用于当前实例的类

2020-08-04 11:40:41 166

原创 Python3 05 File 方法、文件/目录方法、错误和异常、

Python3 File 方法file 对象使用 open 函数来创建,下表列出了 file 对象常用的函数:Python3 OS 文件/目录方法os 模块提供了非常丰富的方法用来处理文件和目录。常用的方法如下表所示:Python3 错误和异常Python有两种错误很容易辨认:语法错误和异常。语法错误Python 的语法错误或者称之为解析错,是初学者经常碰到的,如下实例:>>> while True print('Hello world') F

2020-08-04 10:38:28 290

原创 Python 04 函数、数据结构、模块、输入和输出

Python3 函数Python 定义函数使用 def 关键字,一般格式如下:def 函数名(参数列表): 函数体使用函数来输出"Hello World!":>>> def hello() : print("Hello World!") >>> hello()Hello World!更复杂点的应用,函数中带上参数变量:def area(width, height): return width * height def pr

2020-08-03 19:01:28 372

原创 Python 03 条件控制if – elif – else、循环、迭代器与生成器、

Python3 条件控制if 语句Python中if语句的一般形式如下所示:if condition_1: statement_block_1elif condition_2: statement_block_2else: statement_block_3如果 “condition_1” 为 True 将执行 “statement_block_1” 块语句,如果 “condition_1” 为False,将判断 “condition_2”,如果"condition_2

2020-08-03 17:13:52 503

原创 Python3 02 数字(Number)、字符串、列表、元组、字典

Python3 数字(Number)>>> 2 + 24>>> 50 - 5*620>>> (50 - 5*6) / 45.0>>> 8 / 5 # 总是返回一个浮点数1.6>>> 17 / 3 # 整数除法返回浮点型5.666666666666667>>>>>> 17 // 3 # 整数除法返回向下取整后的结果5>>> 17 %

2020-08-03 14:05:22 389

原创 Python3 01 基础语法、基本数据类型、运算符

Python3 基础语法编码默认情况下,Python 3源码文件以 UTF-8 编码,所有字符串都是 unicode 字符串。标识符第一个字符必须是字母表中字母或下划线’_’。标识符的其他的部分有字母、数字和下划线组成。标识符对大小写敏感。在Python 3中,非-ASCII 标识符也是允许的了。python保留字保留字即关键字,我们不能把它们用作任何标识符名称。Python的标准库提供了一个keyword module,可以输出当前版本的所有关键字:注释Python中单行注释以

2020-08-03 13:05:54 172

原创 SQL 07 -进阶篇 函数 MAX()、MIN()、COUNT()、AVG()、SUM()、GROUP BY

SQL MAX() 函数MAX() 函数 MAX() 函数返回所选列的最大值。 SQL MAX() 语法SELECT MAX(column_name)FROM table_nameWHERE condition;SELECT MAX(Price) AS LargestPriceFROM Products;SQL MIN() 函数MIN() 函数返回所选列的最小值。SQL MIN() 语法SELECT MIN(column_name)FROM table_nameWHERE

2020-08-02 18:35:17 499

原创 SQL 06 进阶篇 HAVING 子句、事务、使用序列、通配符、临时表

SQL HAVING 子句HAVING 子句使你能够指定过滤条件,从而控制查询结果中哪些组可以出现在最终结果里面。WHERE 子句对被选择的列施加条件,而 HAVING 子句则对 GROUP BY 子句所产生的组施加条件。在 SELECT 查询中,HAVING 子句必须紧随 GROUP BY 子句,并出现在 ORDER BY 子句(如果有的话)之前。带有 HAVING 子句的 SELECT 语句的语法如下所示:SELECT column1, column2 FROM table1, tab

2020-08-02 18:12:59 221

原创 SQL语句 05进阶篇 索引、子查询、ALTER TABLE 命令、处理重复数据、使用视图

SQL 索引索引是一种特殊的查询表,可以被数据库搜索引擎用来加速数据的检索。简单说来,索引就是指向表中数据的指针。索引能够提高 SELECT 查询和 WHERE 子句的速度,但是却降低了包含 UPDATE 语句或 INSERT 语句的数据输入过程的速度。索引的创建与删除不会对表中的数据产生影响。CREATE INDEX 命令:CREATE INDEX命令的基本语法如下:CREATE INDEX index_name ON table_name;单列索引:单列索引基于单一的字段创建,其基本

2020-08-02 17:44:36 601

原创 SQL 04-进阶篇 DEFAULT、CHECK、join连接、UNION 子句、SQL 克隆数据表

SQL DEFAULT 约束DEFAULT 约束用于向列中插入默认值。 如果没有规定其他的值,那么会将默认值添加到所有的新记录。 CREATE TABLE 时的 SQL DEFAULT 约束下面的 SQL 在 “Persons” 表创建时在 “City” 列上创建 DEFAULT 约束:My SQL / SQL Server / Oracle / MS Access:CREATE TABLE Persons(P_Id int NOT NULL,LastName varchar(255)

2020-07-30 19:31:32 285

原创 SQL 03-进阶版 -NOT NULL、UNIQUE、PRIMARY KEY、FOREIGN KEY约束

SQL 约束SQL约束用于指定表中数据的规则。约束是作用于数据表中列上的规则,用于限制表中数据的类型。约束的存在保证了数据库中数据的精确性和可靠性。约束有列级和表级之分,列级约束作用于单一的列,而表级约束作用于整张数据表。NOT NULL 约束:保证列中数据不能有 NULL 值-DEFAULT 约束:提供该列数据未指定时所采用的默认值UNIQUE 约束:保证列中的所有数据各不相同-主键约束:唯一标识数据表中的行/记录-外键约束:唯一标识其他表中的一条行/记录-CHECK 约束:此约束保证

2020-07-30 18:42:59 541

原创 matplotlib 03-常见图表

import matplotlib.pyplot as plt一 折线图x=[1,2,3,4,5,6,7,8]y=[5,2,4,2,1,4,5,2]#解决中文乱码问题plt.rcParams['font.sans-serif'] = 'Microsoft YaHei'plt.rcParams['axes.unicode_minus'] = Falseplt.plot(x,y,label="折线图")plt.xlabel("x轴")plt.ylabel("y轴")plt.title(

2020-07-21 20:04:00 125

原创 matplotlib 02-绘制高级柱状图、多个图

import matplotlib.pyplot as pltimport numpy as np#解决中文乱码问题plt.rcParams['font.sans-serif'] = 'Microsoft YaHei'plt.rcParams['axes.unicode_minus'] = False一绘制高级柱状图fig =plt.figure(1)#1行1列第一个绘图区域ax1 = plt.subplot(111)#柱状图数值data = np.array([15,20,18

2020-07-21 19:49:49 1471

原创 matplotlib 01-基础篇 基本标签 简单折线图

import matplotlib.pyplot as plt一 简单折线图#创建画板plt.figure(figsize=(8,4))#绘制折线图plt.plot([1,2,3],[5,7,4]) #(1,5),(2,7),(3,4)#展示plt.show()x = [1,2,3]y = [5,7,4]x2 = [1,2,3]y2 = [10,14,12]#解决中文乱码问题plt.rcParams['font.sans-serif'] = 'Microsoft...

2020-07-21 19:45:07 594

原创 Pandas数据分析工具 03-高级篇

from pandas import Series,DataFrameimport pandas as pdimport numpy as np一、索引和切片索引obj=Series([2,4,6,8],index=["a","b","c","d"])obj切片二、运算df1=DataFrame(np.arange(12).reshape((3,4)),columns=list("abcd"))df1df2=DataFrame(np.arange(20).resh

2020-07-20 20:03:25 137

原创 Pandas数据分析工具 02-进阶篇

import numpy as npnp.arange(16)np.arange(16).reshape((4,4))#快速创建DataFramedata=DataFrame(np.arange(16).reshape((4,4)), index=["Ohio","Colorado","Utah","New York"], columns=["one","two","three","four"])data#删除行数据dat.

2020-07-20 18:38:47 96

原创 Pandas数据分析工具 01-基础篇

一 Pandas简介二 开发环境准备三 Pandas 快速入门Pandas 基本数据结构-SeriesSeries是一种类似于一维数组的对象,它由一组数据(各种 Numpy数据类型)以及 一组与之相关的数据标签(即索引1)组成。仅由一组数据即可产生最简单的 Seriesfrom pandas import Series,DataFrameimport pandas as pd#获取索引(行号)obj.index#获取值obj.values#通过索引获取valueobj[.

2020-07-20 18:29:52 109

原创 SQL 02-高级教程

SQL SELECT TOP, LIMIT, ROWNUMSQL SELECT TOP 子句SELECT TOP 子句用于指定要返回的记录数量。SELECT TOP子句在包含数千条记录的大型表上很有用。返回大量记录会影响性能。注:并不是所有的数据库系统都支持SELECT TOP子句。MySQL支持LIMIT子句来选择有限数量的记录,而Oracle使用ROWNUM。SQL Server / MS Access 语法SELECT TOP number|percent column_name(s)

2020-07-12 14:17:15 311

原创 SQL 01-简介 标准命令 基本语法 运算符 表达式

SQL(结构化查询语言)是用于访问和操作数据库中的数据的标准数据库编程语言。SQL是关系数据库系统的标准语言。所有关系数据库管理系统(RDMS),如MySQL、MS Access、Oracle、Sybase、Informix、Postgres和SQL Server都使用SQL作为它们的标准数据库语言。SQL标准命令DDL(数据定义语言)数据定义语言用于改变数据库结构,包括创建、更改和删除数据库对象。用于操纵表结构的数据定义语言命令有:CREATE TABLE–创建(在数据库中创建新表、表视图或其

2020-07-07 18:23:00 495

原创 Hadoop -04 MapReduce介绍

Hadoop-MapReduceMapReduce是一个框架,我们可以使用它来编写应用程序,以可靠的方式并行地处理大量商品硬件群集上的大量数据。什么是MapReduce?MapReduce是一种基于java的分布式计算的处理技术和程序模型。 MapReduce算法包含两个重要任务,即Map和Reduce。Map采用一组数据并将其转换为另一组数据,其中各个元素被分解为元组(键/值对)。其次,reduce任务,它将map的输出作为输入,并将这些数据元组合并成一组较小的元组。作为MapReduce名称的顺序

2020-07-07 10:46:59 231

原创 Hadoop-03 Yarn

YARN - ResourceManager负责全局的资源管理和任务调度,把整个集群当成计算资源池,只关注分配,不管应用,且不负责容错资源管理以前资源是每个节点分成一个个的Map slot和Reduce slot,现在是一个个Container,每个Container可以根据需要运行ApplicationMaster、Map、Reduce或者任意的程序。以前的资源分配是静态的,目前是动态的,资源利用率更高Container是资源申请的单位,一个资源申请格式:<resource-name,

2020-07-05 16:53:20 118

原创 Hadoop-02 HDFS简介 读写文件

Hadoop - HDFS简介Hadoop Distributed File System,分布式文件系统架构Block数据块基本存储单位,一般大小为64M配置大的块主要原因:减少搜寻时间,一般硬盘传输速率比寻道时间要快,大的块可以减少寻道时间;减少管理块的数据开销,每个块都需要在NameNode上有对应的记录;对数据块进行读写,减少建立网络的连接成本一个大文件会被拆分成一个个的块,然后存储于不同的机器。如果一个文件少于Block大小,那么实际占用的空间为其文件的大小。基本的

2020-07-05 14:52:38 136

原创 Hadoop-01 hadoop简介安装配置测试

Hadoop - 简介Hadoop可运行于一般的商用服务器上,具有高容错、高可靠性、高扩展性等特点特别适合写一次,读多次的场景适合大规模数据流式数据(写一次,读多次)商用硬件(一般硬件)不适合低延时的数据访问大量的小文件频繁修改文件(基本就是写1次)Hadoop架构HDFS: 分布式文件存储YARN: 分布式资源管理MapReduce: 分布式计算Others: 利用YARN的资源管理功能实现其他的数据处理方式...

2020-07-05 13:00:49 1667 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除