自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 面试现场 公司到底想要什么样的人?

本专题下内容是学习 极客时间 专栏 面试现场 的笔记,仅供自己学习记录之用。公司眼中的好员工一方面看结果1.个人工作质量好,价值高。也就是说,工作结果在特性、性能、可靠性、易用性、可维护性、安全性等等方面符合要求,而且工作结果对客户来说有用,能给客户带来价值,能够解决用户的真正问题。2.赋能别人做出成果。这有分为三个层次,意识分享经历去帮助同事,二是分享技能帮助同事提升技能,授人以渔,三...

2019-04-16 22:09:42 464

原创 数据采集:如何自动化采集数据

一个数据的走势是由多个维度影响的,我们需要通过多源的数据采集,手机到尽可能多的数据维度,同时保证数据的质量,这样才能得到高质量的数据挖掘结果数据源可分为以下四类:开放数据源:政府、企业、高校爬虫抓取:网页、app日志采集:前端采集、后端脚本传感器:图像、测速、热敏如何使用爬虫做抓取:爬虫抓取属于最常见的需求,最直接的方法是使用python编写爬虫代码。在python 爬虫中,基本上...

2019-04-12 18:13:00 2615

原创 学习数据分析需要掌握哪些技能

商业智能BI,数据仓库DW,数据挖掘DM商业智能:百货商店利用数据预测用户购物行为属于商业智能,相比于数据仓库、数据挖掘,它是一个更大的概念。商业智能可以说是基于数据仓库,经过数据挖掘后,得到了商业价值的过程。所以说数据仓库是个近况,数据挖掘是炼金术,而商业报告则是黄金数据仓库:百货商店积累的顾客的消费行为行管会存储在数据仓库中,他可以说是BI这个房子的第几,搭建好DW这个第几只有,才能进行分...

2019-04-12 13:00:35 648 1

原创 数据挖掘的十大算法

数据挖掘的十大算法按照不同的目的将算法分成四类分类算法: C4.5 ,朴素贝叶斯,SVM,KNN ,Adaboost , CART聚类算法: K-Means , EM关联分析:Apriori连接分析:PageRank1.C4.5C4.5 算法是十大算法之首,它是决策树的算法,它在决策树够早过程中就进行了剪枝处理,并且可以处理连续的属性,也能对不完整的数据进行处理。2.朴素贝叶斯算法...

2019-04-12 12:13:46 493 1

原创 数据挖掘

此分类下的文章是学习极客时间专栏 数据分析45讲 的笔记,只做学习之用

2019-04-12 11:01:12 66

原创 数据挖掘的过程

数据挖掘的过程基本分为以下6个步骤:1. 商业理解:数据挖掘不是我们的目的,我们的目的是更好的帮助业务,所以第一步我们要从商业的角度理解项目需求,在这个基础上,在对数据挖掘的目标进行定义2.数据理解:尝试收集部分数据,然后对数据进行探索,包括数据描述、数据质量验证等。这有助于对收集的数据有个初步的认知。3.数据准备:开始收集数据,并对数据进行清洗、数据集成等操作,完成数据挖掘前的准备工作。...

2019-04-12 10:38:34 1462

原创 python 基础知识

数和表达式浮点数什么是浮点数呢?除法运算的结果为小数,即浮点数(float)1/2如果想丢弃其中的小数部分,即为执行整除运算,使用双斜杠//1//25.2//1.5求模(求余)运算符X % Y 的结果为 X 除以 Y 的余数,也就是说执行整除时的余下的部分10 % 39 % 3求幂运算符2 ** 3在求幂运算中,求幂运算符的优先级要比求负数的高,也...

2019-04-11 10:44:50 92

原创 机器学习一百天 支持向量机

支持向量机(SVM)支持向量机是一个有监督的机器学习算法,特可用于分类和回归分析,最主要的是用在分类问题中。在这个算法中,根据特征值构建一个n维空间(其中n是特征数量),把每个数据点投影到此空间内如何分类通过查找一个超平面,把数据分成两类,也就是使用算法输出一个超平面,用于数据分类最佳超平面对SVM来说,它指的是距离两类数据最远的一个超平面H1 不能把类别分开。H2 可以,但只有很小...

2019-04-09 17:31:25 170 1

原创 李宏毅机器学习

李宏毅机器学习2019(国语)_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili https://www.bilibili.com/video/av46561029/李宏毅机器学习(2017)_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili https://www.bilibili.com/video/av10590361/...

2019-04-08 21:01:33 171

原创 机器学习一百天 K近邻算法

这里介绍的略简单了一些,稍后会补上K-NNk近邻算法是一种简单但也最常用的分类算法,他也可以应用于回归计算。K-NN是无参数学习,它是基于实例并在一个有监督的学习环境中使用。K–算法的工作原理k-NN 用于分类是,输出是一个类别,这种方法有三个关键因素:一组标记的对象,例如:一组已存储的记录、对象之间的距离以及k的值-最近邻的数量做出预测若要对未标记的对象进行分类,则会计算出该对象标记...

2019-04-08 20:45:44 145

原创 机器学习一百天 第四天笔记 逻辑回归

逻辑回归逻辑回归被用来处理不同的分类问题,这里的目的是预测当前被观察对象属于哪个组,他会提供一个离散的二进制输出结果如何工作逻辑回归使用基础逻辑函数通过估算概率来测量因变量(我们想要预测的标签)和一个或者多个自变量之间的关系Sigmoid 函数Sigmoid 函数是一个s形曲线,可以实现任意真实值映射为值域范围为0-1的值,但从来不局限于这些限制图片来自于唐戈S函数 - 维基百科,...

2019-04-07 22:28:27 731

原创 如何学习数据结构与算法 01

此分类下的文章是学习极客时间专栏——数据结构与算法之美的笔记,专栏作者是王争大神。不知道会不会被CSDN限流。。。什么是数据结构?什么是算法?我们现在学习不是为了考试,所以不能死抠概念。虽然说没有必要深挖严格的定义,但是这并不等于不需要理解概念。从广义上讲:数据结构就是指一组数据的存储结构,算法就是操作数据的一组方法举个小例子:图书馆在储藏书籍时,管理员一般会将书籍分门别类的进行“存储”...

2019-04-07 11:36:08 110

原创 机器学习一百天 第三天 多元线性回归

多元线性回归是尝试通过用一个线性方程来适配观测数据,这个线性方程是两个以上的特征和相应之间构建的一个关系。多元线性回归的实现步骤和简单的线性回归相似,只是在评价部分有所不同。前提自变量和因变量的关系是线性误差项的方差必须等同多元回归假定残差符合正态分布缺少多重共线性虚拟变量在多元回归模型中,当遇到数据集时非数据类型时,使用分数数据是一个非常有效的方法。例如可使用1或0这样的值来...

2019-04-05 20:51:34 529

原创 机器学习100天 第二天 简单线性回归模型

简单线性回归使用单一特征值来预测响应值这种方法是基于自变量X来预测因变量值Y的方法,假设这两个变量是线性相关。在这个任务重使用最佳拟合曲线来最小化预测误差——回归线的误差将是最小的。实验步骤第一步是数据预处理导入相关库,数据集,检查缺失的数据,划分数据,特征缩放将使用简单线性模型的相关库进行#数据预处理import pandas as pd import numpy as np...

2019-04-04 20:22:58 283

原创 机器学习一百天 数据预处理

机器学习一百天中文版地址https://github.com/MLEveryday/100-Days-Of-ML-Code机器学习一百天英文版地址https://github.com/Avik-Jain/100-Days-Of-ML-Code本章是第一天内容的笔记,作记录学习之用第一天的内容——数据预处理第一步:导入需要的库 NumPy和PandasNumPy:包含数学计算函数Pa...

2019-04-04 11:49:37 290

周志华《机器学习》4.3 剪枝处理 笔记

剪枝处理在决策树学习中,为了尽可能正确分类训练样本,结点划分过程将不断重复,有时会造成决策树分支过多,这时就有可能把训练样本学习的太好,以至于把训练集的某一些特点当做是所有数据都具有的一般性质,这时就发生了过拟合。因此可以通过主动去掉一些分支来降低过拟合的风险。剪枝是决策树学习算法对付“过拟合”的主要手段。决策树剪枝的基本策略有两种:(1)预剪枝 :预剪枝是在决策树生成过程中,对每个结点在划...

2018-12-10 14:36:06 888

原创 决策树基本流程及其实现

周志华《机器学习》笔记 仅供学习使用决策树也称作判定树,是一类常见的的机器学习方法。周志华老师在其书《机器学习》中,以二分类任务为例给我们讲解了决策树的基本流程。我们希望从给定的训练集学的一个模型,此模型可以对新的示例进行分类,这个把样本分类的任务,可看作对“当前样本属于正常吗”这个问题的“决策”或“判定”过程。决策树是基于树结构来进行决策的,这也是人类在面临决策问题时一种很自然的处理机制。...

2018-12-07 15:05:51 18689 1

原创 岭回归——Ridge

Ridge回归通过对系数的大小施加惩罚来解决普通最小二乘法的一些问题,岭系数最小化的是带惩罚项的残差平方和其中惩罚项的系数越大,收缩量越大,这样的系数对共线性的鲁棒性也更强与其他的线性模型一样,Ridge用fit方法将模型系数存储在conf_成员中from sklearn import linear_modelreg = linear_model.Ridge(alpha=.5)reg....

2018-12-05 20:54:58 530

原创 普通最小二乘法

print(__doc__)# 输出文件开头注释的内容import matplotlib.pyplot as pltimport numpy as npfrom sklearn import datasets,linear_modelfrom sklearn.metrics import mean_squared_error,r2_score#mean_squared_error预测...

2018-12-05 10:02:34 278

原创 循环语句

while 循环语法格式:

2018-11-18 16:13:17 108

原创 if 条件判断

条件判断语法格式:if sth == True: do sth else: do other

2018-11-14 20:26:31 189

原创 标识符 命名规则 关键字

标识符:在python程序开发过程中,自定义的一些符号、名称由字母。数字、下划线(_)组成,不能以数字开头,且标识符要区分大小写。命名规则不能使用关键字见名知意,如:age,name驼峰命名法——类名(UseInfo)小写字符+下划线,如变量名(user_age)关键字通过keyword模块的kwlist函数查询在python 内部具有特殊功能的标识符...

2018-10-22 21:31:04 362

原创 Input print

Input()用于在程序执行过程中接收用户输入的内容,默认接收输入内容为字符串类型print()用于在程序执行过程中输出内容:直接输出内容 输出单个和多个变量 格式化输出card_id = input('请输入卡号:')pass_word = input('请输入密码:')print(card_id)print(type(card_id))print(pass_word)#...

2018-10-22 10:22:09 220 1

原创 python 基础语法

Python的文件是以.py结尾,现在使用的软件是pycharm注释经常出现在代码中,我们使用注释的原因是:希望通过自己的语言来描述一段代码的实现逻辑和功能,方便理解代码,再次回看代码时,可以很快的回想起之前的思路,易于维护。有两种使用注释的方式:1.单行注释 以#开头,只注释一行,多行注释则需要在注释的内容开头分别添加#2.多行注释 使用''' zhushi'''或者 '''''' zh...

2018-10-21 21:01:35 70

原创 python 概述

python1.一种面向对象的解释型计算机程序设计语言。2.具有丰富且强大的内置库和第三方库3.语法简洁灵活4.开元、跨平台python的应用场景很多,如数据分析、人工智能、网络爬虫、自动化运维等等,我要走的就是人工智能之路。...

2018-10-20 21:13:05 92

原创 第一篇博客

这是第一篇博客,说说我写博客的目的,此博客是为记录我学习python的过程。print('hello python')

2018-10-20 21:04:46 112

非常好用的本地截屏软件

非常好用的本地截屏软件,适合快捷截屏,经常使用

2024-03-20

方便使用的本地屏幕录像机ocan

方便使用的屏幕录像机+计算机+会议+本地使用+好用

2024-03-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除