自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 Regression回归数据分析的步骤

一、前言场景预设利用回归进行数据分析,在现实中具有广泛的应用,用于发现事物之间的关系。假设你是一个制造工程师,老板要求你对某化学产品的合成产出率进行分析,以便用于优化设备参数。此时,由于刚学了李宏毅老师的课,作为动手小王子的你,打算亲自动手做一下这个项目并总结处Regression进行数据分析预测时的方法论。 **声明:**本文大部分笔记理解来源于李宏毅机器学习视频课程Regression以及《Hands on machine Learning with Scikit Learn, Keras an

2021-07-15 00:12:57 934 2

原创 什么是机器学习

什么是机器学习机器学习的概念机器学习的分类机器学习应用场景与传统编程的差异机器学习的概念机器学习就是计算机编程使其能够从输入数据中学习。通俗地讲,机器学习将会经历下面几个典型的流程:机器学习的分类机器学习应用场景与传统编程的差异例如在邮件过滤程序里面传统的处理流程:机器学习处理流程...

2021-07-12 23:17:13 512 1

原创 Task 03 线性回归&主成分分析(PCA)之异常检测 学习笔记

线性回归&主成分分析(PCA)之异常检测1 基础知识1.1 前提假设利用线性回顾和主成分分析进行异常检测需要有两个前提假设:1、近似线性相关假设。是利用线性回归和PCA进行异常检测的理论基础2、子空间假设。子空间假设惹味数据是内嵌在低维度空间之中,线性方法目的是找到合适的低维子空间使得异常点在其中区别于正常点。1.2 主成分分析法​ 主成分分析法是最常用的线性降维方法,主要原理是通过某种线性投影,将高维的数据映射到低维度的空间中表示,并期望在所投影的维度上-数据的方差最大,以此

2021-05-18 01:02:17 1465

原创 异常检测——基于统计学的方法—学习笔记

异常检测——基于统计学的方法1、基于统计学方法的异常检测概述2、参数方法2.1 正态分布中的Z分布(Z-score)3、非参数方法3.1 直方图4、基于角度的方法5、HBOS1、基于统计学方法的异常检测概述异常检测的统计学方法的一般思想是:利用给定的已知数据进行构建模型,然后识别该模型低概率区域中的对象,把它们作为异常点。即利用统计学方法建立一个模型,然后考虑对象有多大可能符合该模型。把可能性低的点,视作异常点。根据如何指定和学习模型,异常检测的统计学方法可以划分为两个主要类型:参数方法和非参数方法

2021-05-14 22:55:59 751

原创 异常检验那些事——概述

异常检测那些事1、 前言—— 那些生活中的异常2、异常检测的定义及分类2.1定义:2.2 分类2.3 异常检测任务分类3、异常检测的方法:3.1 传统方法3.1.1 基于统计学的方法3.1.2 线性方法3.1.3 K近邻方法3.2 集成方法3.3 机器学习1、 前言—— 那些生活中的异常异常在生活中无处不在,我们听到最多的一句话就是“计划赶不上变化”。那么,我们能否在异常发生时及时识别出来,以便于及时止损?比如说,某天在微信上你的女朋友跟你撒娇亲昵,然后突然要你发红包以示什么什么之类的?这个时候,如果你

2021-05-12 00:06:36 222

原创 天池龙珠计划寒假训练营学习笔记:利用XGBoost进行分析的完整流程

天池龙珠计划寒假训练营学习笔记:利用XGBoost进行分析的完整步骤工具:天池NoteBook 训练数据10.9MB训练数据下载链接:https://tianchi-media.oss-cn-beijing.aliyuncs.com/DSW/7XGBoost/train.csv声明:本文主要内容来源于天池龙珠计划寒假训练营教材,部分内容有修改。原文地址:添加链接描述1、XGBoost 的优缺点:1.1 XGBoost的主要优点:简单易用。相对其他机器学习库,用户可以轻松使用XGBoost

2021-01-29 01:07:08 537

原创 深入解读逻辑回归LogisticRegression:适用于初学者

深入解读Logistic回归及其结果:回归系数,OR,odds声明:本文并非原创,大部分整理自网络,有部分自己修改。参考文献:1、原文网址:http://blog.sina.com.cn/s/blog_44befaf60102vznn.html2、原文大量参考网址:http://www.ats.ucla.edu/stat/mult_pkg/faq/general/odds_ratio.htm3、https://www.jianshu.com/p/11ea30121a794、 阿里天池龙珠计划寒假

2021-01-23 12:11:57 6528

原创 MySQL 查询 并集、交集、差集

MySQL查询交集、并集、差集背景和使用的数据样本:该章节学些主要涉及到Datawhale SQL 组队学习任务;本次使用的数据,由Datawhale 开源提供,具体代码见文章尾部:各位看官可以直接复制到MySQL Workbench 上运行生成数据库和表格。MySQL WorkBench 如何对数据进行我们常见的集合运算呢?Union、 INTERSECT(遗憾的是MySQL 8.0 不支持该运算用where /in 实现)、EXCEPT(遗憾的是MySQL 8.0 不支持该运算,但巧妙的用wher

2020-12-22 22:14:45 7001

原创 SQL创建视图注意事项

视图的创建和注意事项1.如何创建视图及注意事项创建视图图的基本语法:CREATE VIEW <视图名称>(<列名1>,<列名2>,...) AS <SELECT语句>from 表名group by 列名;-- 该语句可以选择或者不写该语句,两者的区别就是是否有汇总注意事项:视图名称后面的列的数量必须与select 语句里面选择的列的数量一致;否则会提示错误;当你创建了一个视图后(同个视图名字),若需要对视图语句进行修改的话,需要先删除旧

2020-12-20 17:20:37 2029 3

原创 MySQL(win10)数据导入错误,错误代码3948究极解决方案 2020-12-17

MySQL 版本:操作系统:Windows 10错误原码:Error Code: 3948. Loading local data is disabled; this must be enabled on both the client and server说明:为什么会出现这个问题:这是因为新版本的MySQL 默认禁止加载本地文件,所以在第一次使用MySQL导入数据的新手来说,会遇到这个问题。重新设定参数和设置后,重启MySQL Workbench , 后面再导入数据就不会出现该问题;

2020-12-17 20:29:20 1654

原创 MySQL基础之:初始数据库01

**1 初识数据库1.1 常见概念和缩写:DB: DatabaseDBMS:Database Management System,下述为数据库管理系统的分类思维导图。本次学习内容为关系型数据库:MySQL1.2 初始SQL1.2.1 常见缩写和概念:(1)DDLDDL:Data Definition Language,数据定义语言,用来创建或者删除存储数据用的数据库以及数据库中的表等对象。DDL 常见指令:CREATE : 创建数据库和表等对象DROP : 删除数据库和表等对象A

2020-12-14 23:13:48 312

原创 Task03 Python异常处理 之 try ...except..

在学习python异常处理之前,首先你要理解python有哪些常见的错误类型,这些错误类型都是怎么产生的。要熟悉这些错误类型,可以编写相应的程序命令,出现相应的错误类型以便快速熟悉python中常见的错误。接着当你看到这些错误类型时,你就可以轻车熟路找到对应的错误在哪,怎么处理。当某类错误是允许发生或者这种错误往往是人为或习惯造成的系统性,你又想让程序能够执行语句。这时你就需要try…except…常见的异常出错下面是来源于Datawhale github 的分享。常见错误类型:BaseExcepti

2020-07-25 23:38:41 166

原创 Task02 之条件语句、循环语句

本文通过猜数字游戏小程序来了解条件语句和循环语句基本知识1、条件语句基本形式:if 可判断真假的条件: 执行语句1else: 执行语句2 判断真假的语句:可以是比较语句(>,<,>=,<=,==,not in, is not 等)类似循环语句:if… else…语句内部也可以嵌套 if…else 语句;2、循环语句:常见的循环语句有两种for 循环和while 循环:a、for循环,通常用在对于有指定范围或者循环的次数确定:例如在绘制九九乘法表格时就用

2020-07-24 16:11:11 179

原创 NLP-新闻采编数据读取与分析

利用pandas 进行csv文件数据读取和分析数据读取和统计描述性分析import matplotlib.pyplot as pltimport pandas as pdfrom collections import Countertrain_df = pd.read_csv(r'A:\Python\Datawhale-NLP\data\train_set.csv',sep='\t',nrows=1000)train_df.head()print(train_df,type(train_df

2020-07-22 23:24:39 280 1

原创 Python 入门之变量、算术运算符、比较运算符、数据类型及位运算

Task:01 变量、运算符、数据类型及位运算第一部分:基本概念1、变量:类似数学中定义的自变量,可同时定义变量的数据类型注意:1.变量名不能与Python库里的模块或者方法名相同,2. 变量名可以包括字母、数字、下划线、但变量名不能以数字开头。3.变量名最好有实际意义,方便代码的可读性,比如:用于存储用户名的字典变量,可以写成username;年龄:age等方便理解的自然语言;3. Python 变量名是大小写敏感的,foo != Foo。2、算术与比较运算符:1.算术运算符:加减乘

2020-07-22 21:54:31 216

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除