自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(68)
  • 收藏
  • 关注

原创 Bagging的随机森林;Boosting的AdaBoost和GBDT

Gradient Boosting 是一种梯度下降模型,每一轮迭代都会训练一个新的基模型,然后将其加入到模型中,但是每个基模型的权重并不是固定的,而是根据残差的梯度来确定的。在每一轮迭代中,Gradient Boosting 会调整样本的权重,并使用残差来训练新的基模型,这样可以使得模型越来越关注于难以拟合的样本。在GBDT中,每一棵决策树都是在前一棵树的残差基础上进行训练。在每一轮迭代中,Adaboost 会调整样本权重,让分类错误的样本得到更高的权重,这样可以使得后续的基分类器更关注于难以分类的样本。

2024-02-03 15:13:41 974

原创 Hive-SQL语法大全

],表示可选,如上[LOCATION]表示可写、可不写,表示或,如上ASC | DESC,表示二选一…,表示序列,即未完结,如上表示在SELECT后可以跟多个,以逗号隔开(),表示必填,如上(A | B | C)表示此处必填,填入内容在A、B、C中三选一。

2024-01-20 20:42:29 2167

原创 03-黑马程序员大数据开发:Apache Hive

1. 目的:了解什么是分布式SQL计算;了解什么是Apache Hive2. 使用Hive处理数据的好处操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手底层执行MapReduce,可以完成分布式海量数据的SQL处理3. 什么是分布式SQL计算?以分布式的形式,执行SQL语句,进行数据统计分析。4. Apache Hive是做什么的?很简单,是一款分布式SQL计算的工具,将SQL语句翻译成MapReduce程序,从而提供用户分布式SQL计算的能力。

2024-01-20 19:38:20 1258

原创 02-黑马程序员大数据开发:分布式计算和分布式资源调度

MapReduce和YARN概述

2024-01-17 18:15:38 1069

原创 01-黑马程序员大数据开发

Hadoop分布式存储系统HDFS

2023-12-21 10:58:37 1073

原创 数据仓库——原理+实战(一)

(1)数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合。(2)主要用于组织积累的历史数据,并使用分析方法(OLAP、数据分析)进行分析整理,进而辅助決策,为管理者、企业系统提供数据支持,构建商业智能。

2023-06-20 20:59:50 3524

原创 MCMC算法

MCMC算法:Metropolis算法 python写法

2022-12-20 12:20:14 3830 1

原创 实战项目:物流行业数据分析

物流行业数据项目

2022-11-10 21:47:27 4397 15

原创 机器学习 笔记06——感知机模型原理

机器学习笔记——感知机模型原理以及python实现案例

2022-11-09 19:31:52 282

原创 机器学习 笔记06:最大熵模型

最大熵原理是概率模型学习的一个准则,最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型就是最好的模型,通常使用模型的约束条件来确定概率模型的集合,所以最大熵原理也可以表述为在满足约束条件的模型集合中选择上最大的模型。 这里,n个约束条件; 真实分布和经验分布为: 未知的只有条件分布 p(y|x),得到了待选模型集合 最大熵模型就是由公式(6.22)、公式(6.23)表示的条件概率分布。 想要估计逻辑回归中的条件概率分布,可以通过极大似然方法实现。那么

2022-11-09 18:26:46 876

原创 机器学习 笔记03——逻辑回归 + 分类问题评估指标:精确率、召回率、F1-score、AUC指标

solver可选参数:{'liblinear', 'sag', 'saga', 'newton-cg', 'lbfgs'}默认 'liblinear' :用于优化问题的算法。对于小数据集来说,'liblinear' 是个不错的选择。而'sag'和'saga'对于大数据集会更快。对于多分类问题,只有'newton-cg', 'sag' 和’lbfgs‘可以处理多项损失,'liblinear'仅限于'one-versus-rest'分类。penalty:正则化种类,默认L2正则化。

2022-11-06 19:33:48 4562 1

原创 机器学习笔记02——线性回归

1.使用不同的方法来调整系数的上限:L1正则项将系数设置为0来进行特征选择,以减少相关性较低的特征;L2正则项是对值比较大的系数进行惩罚但并不设置为0,并且还调整参数λ的值,确保系数不会受到严厉的惩罚,不至于欠拟合。L1正则化和L2正则化都是在目标函数的后面添加一个正则项用来防止过拟合,L1正则项是基于L1范数,添加一个参数的绝对值和参数的积项;3.稳定性:对于新数据的调整,L1变动很大,L2整体变动不大。随着维度(特征数量)的增加,分类器性能逐步上升,到达某点之后,其性能便逐渐下降。

2022-11-05 09:01:03 929

原创 机器学习 笔记05——特征工程之特征处理:字典特征提取、文本特征提取

1.3 字典特征提取(特征离散化) ⭐1.4 文本特征提取(英文+中文)⭐1.4.1英文数据演示1.4.2中文特征提取演示1.4.3jieba分词:中文特征提取1.4.4Tf-idf文本特征提取

2022-11-04 20:24:16 1780

原创 机器学习 笔记04 ---决策树(DT):理论+代码实现

1、概述​编辑2、决策树模型3、决策树学习4、决策树的构建——三步骤4.1 特征选择4.1.1 熵(Entropy)4.1.2 条件熵(Conditional Entropy)H(Y|X)4.1.3 信息增益(Information Gain)4.1.4 信息增益比4.2决策树算法4.2.1 ID3算法4.2.2 C4.5算法4.2.3 Python实现ID3、C4.5算法4.3 决策树的剪枝引言4.3.1 算法目的4.3.2 算法

2022-10-31 21:05:06 3533 1

原创 差分隐私(Differential Privacy)

二、差分隐私三、实现机制1、拉普拉斯机制(常用于数值输出的函数)2、高斯机制四、差分隐私分类(1)本地化差分隐私(2)中心化差分隐私(3)分布式差分隐私(4)混合差分隐私

2022-10-28 21:05:00 12992

原创 实战项目:餐厅订单数据分析:订单维度和时间维度

技术点导入数据:pd.read_excel()拼接数据:pd.concat([列1,…],axis=0)删除空值:data.dropna(axis=1,inplace=True)分组进行统计(分组求和):.groupby(by=‘str’)排序,切片Top10绘制柱状图走势和高度

2022-10-26 21:27:23 2560 1

原创 SQL学习(基础) ——窗口函数

窗口函数、滑动函数、

2022-10-25 20:48:08 2241

原创 python、pycharm安装以及python库的安装

安装python包时遇到的问题

2022-10-23 19:50:14 288

原创 01. 机器学习笔记01——K近邻算法 , CV_example

配套:机器学习西瓜书、李航博士《统计学习方法》、吴恩达视频

2022-10-16 17:54:21 737 1

原创 最优化方法---无约束问题:精确线性搜索方法

最优化方法进退法黄金分割法一维牛顿法二分法

2022-10-12 17:56:24 1536

原创 SQL学习(基础)

1. 基础查询# 1、查询单个字段select 字段名 from 表名;# 2、查询多个字段select 字段名,字段名 from 表名;# 3、查询所有字段select * from 表名;# 4、查询常量# 注意:字符型和日期型的常量值必须用单引号引起来,数值型不需要select 常量值;# 5、查询函数select 函数名(实参列表);# 6、查询表达式select 100/1234;# 7、起别名# ① as# ② 空格# 8、去重select

2022-08-04 19:33:33 1507

原创 SQL学习---多张数据表-自学SQL网(6-12课题解)

1.SQL Lesson 6: 用JOINs进行多表联合查询用INNER JOIN 连接表的语法:SELECT column, another_table_column, … FROM mytable (主表) INNER JOIN another_table (要连接的表) ON mytable.id = another_table.id (想象一下刚才讲的主键连接,两个相同的连成1条) WHERE condition(s) ORDER BY column, … ...

2022-03-21 10:49:01 1177

原创 SQL学习---多张数据表

用INNER JOIN 连接表的语法:SELECT column, another_table_column, … FROM mytable (主表) INNER JOIN another_table (要连接的表) ON mytable.id = another_table.id (想象一下刚才讲的主键连接,两个相同的连成1条) WHERE condition(s) ORDER BY column, … ASC/DESC LIMIT num_limit OFFSET nu.

2022-03-20 17:00:01 228

原创 SQL学习---05练习

【复习】列出所有加拿大人的Canadian信息(包括所有字段)✓select * from north_american_cities where country = "Canada";【复习】列出所有在Chicago西部的城市,从西到东排序(包括所有字段)✓select * from north_american_cities where Longitude < -87.629798 order by longitude desc;【复习】用人口数populat..

2022-03-20 16:30:49 617

原创 SQL---基础语法04

1. 按导演名排重列出所有电影(只显示导演),并按导演名正序排列 ✓SELECT DISTINCT director FROM movies;2. 【结果排序】列出按上映年份最新上线的4部电影 ✓SELECT * FROM movies ORDER BY year DESC LIMIT 4;3. 【结果排序】按电影名字母序升序排列,列出前5部电影 ✓SELECT * FROM movies ORDER BY title ASC LIMIT 5;4. 【结果排序】按

2022-03-20 16:13:57 890

原创 数据分析---matplotlib绘制

import matplotlib.pyplot as pltplt.plot()绘制线性图绘制单条线性图:plt.plot(x,y) 绘制多条线性图: 法一:plt.plot(x1,y1,x2,y2) 法二:plt.plot(x1,y1) plt.plort(x2,y2) 设置坐标系比例:plt.figure(figsize=(a,b)) ,设置比例为a:b,先设置再画图 设置图例: plt.plot(x,y,label='xy') 图例生效 plt.l...

2022-03-16 16:05:31 924

原创 数据分析---2012美国大选献金项目数据分析

需求:1. 加载数据df = pd.read_csv('./data/usa_election.txt')2. 对新数据进行总览,查看是否存在缺失数据:方法一:isnull、notnull、any、all方法二:df.info()df.info()3. 用统计学指标快速描述数值型属性的概要:df.describe() #统计学指标:数值型属性4. 空值处理。可能因为忘记填写或者保密等原因,相关字段出现了空值,将其填充为NOT PROVIDEdf.

2022-03-16 14:09:27 560

原创 数据分析---pandas的高级操作

一、替换操作(replace)替换操作可以同步作用与Series和DataFrame中df.replace(to_replace , value , replace , ...) #将所有to_replace 替换成valuedf.replace(to_replace={4:5},value='five' ) #将指定列的元素进行替换,re_place{列索引:被替换的值}df.replace(to_replace={1:'one'} ) ...

2022-03-15 14:28:23 4776

原创 数据分析---人口分析案例

1. 首先导入所需数据,了解每个csv文件存储了哪些数据。2.将人口数据pop和 各州简称数据abb 进行合并: 如果想保证数据的完整性,需要使用外连接。3. 将合并之后重复的一列abbreviation删除:4. 查看讯在缺失数据的列:(说明abb_pop数据中有缺失值)5. 找到哪些state/region 使得state的值为NaN,进行去重操作: 将state中空值对应的简称找到,然后对state/region...

2022-03-15 10:57:28 1616

原创 数据分析---DataFrame的级联and合并操作

级联操作对原始数据(表格)进行横向或者纵向的拼接,和np.concatenate函数类似。需要保证拼接的行列索引的一致;如果不一致,会补空(外级联)或者 只级联能够级联的部分(内级联)import numpy as npimport pandas as pdfrom pandas import DataFramepd.concat((df1,df2),axis=0) #按列进行级联 匹配级联和不匹配级联(内、外) 横向级联——两个表格的行索引相同,匹配级联纵向级...

2022-03-14 15:59:26 981

原创 数据分析---基于pandas的数据清洗

一、处理丢失的数据(删除所在行或列、覆盖)原始数据中可能存在两种缺失值(空值): 可能会产生重复值和异常值。 有两种缺失数据: None 和 np.nan(NaN) 两种丢失数据的区别: 两种数据的类型不同,None是对象类型(Nonetype),np.nan是float类型。 因此在数据分析中需要用浮点类型np.nan,可以对该空值进行算术运算且不报错,不会干扰、中断对原始数据的运算。NaN可以参与运算,None不可以参与运算。 在pandas中如果遇到None形式的空值,则pan...

2022-03-14 13:16:23 2116 1

原创 数据分析——DataFrame基础操作巩固—股票分析

需求一:输出该股票所有收盘比开盘上涨3%以上的日期输出该股票所有开盘比收盘跌幅超过2%的日期假设我从2010年1月1日开始,每月第一个交易日买入1手股票,每年最后一个交易日卖出所有股票,到今天为止,我的收益如何?需求二:双均线策略制定画图:5日均线和30日均线也可以切片其中一段时间的图判断死叉:...

2022-03-14 10:28:27 1370

原创 02---结构型模式:适配器模式

一、适配器模式组合:在类B里放入类A的对象 ,就可以在类B里使用类A的方法。适配器模式内容:原本两个类不能在一起工作,加了适配器之后,可以在一起工作。类适配器当有多个产品 不适配时,另一种方法: 通过组合来完成 对象适配器将一个接口(cost)转化成另外一个接口(pay),使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。两种实现方法:类适配器:使用多继承——继承接口和待适配类 对象适配器:使用组合...

2022-02-24 09:11:11 97

原创 01---创建型模式:设计模式、工厂模式、建造者模式、单例模式

一、设计模式面向对象的三大特性:封装,继承,多态。接口:若干抽象方法的集合。作用:限制实现接口的类必须按照接口给定的调用方式实现这些方法;对高层模块隐藏了类的内部实现,直接看接口代码即可明白,不需要看类的具体实现。# 接口的实现方式(常用的一种)from abc import ABCMeta,abstractmethodclass Payment(metaclass=ABCMeta): #抽象类 @abstractmethod def pay(self,money

2022-02-21 12:42:40 256

原创 算法进阶03---欧几里得算法

最大公约数

2022-02-19 23:44:28 283

原创 算法进阶02---动态规划:

举例:递归方法没有非递归方法快,因为递归中,子问题重复计算导致执行效率低求 f(6)时需要求 f(5),f(4),f(3) ; 等到求 f(7)时,还需要再一次求 f(6), f(5),f(4),f(3)。# 斐波那契数列# 递归def fibnacci(n): if n==1 or n==2: return 1 else: return fibnacci(n-1)+fibnacci(n-2)print(fibnacci(7))#

2022-02-19 13:57:52 169

原创 算法进阶01---贪心算法

问题一:# 找零问题问题二:0-1背包:商品1 和商品2 :价值160 商品2 和商品3: 价值 220因此0-1背包不能用贪心算法解释。

2022-02-17 22:44:29 219

原创 算法篇08---二叉搜索树的遍历、插入、查询、删除

一、树1. 概念2. 实例二、 二叉树的链式存储将二叉树的节点定义为一个对象,节点之间通过类似 链表 的链接方式来连接。class BiTreeNode(object): def __init__(self,data): self.data = data self.lchild = None # 左孩子 self.rchild = None # 右孩子a=BiTreeNode('A')b=BiTreeNode('B'

2022-01-27 15:01:45 524

原创 算法篇07---链表、哈希表

一、链表二、哈希表python的字典、集合都是它实现的。

2022-01-19 17:55:02 1308

原创 算法篇06---python队列的内置模块及其应用、栈和队列的应用

学习目标:DAY4 python函数基础(上)学习内容:1、函数的定义,调用,返回值,如何设置参数学习时间:提示:这里可以添加计划学习的时间例如:1、 周一至周五晚上 7 点—晚上9点2、 周六上午 9 点-上午 11 点3、 周日下午 3 点-下午 6 点学习产出:提示:这里统计学习计划的总量例如:1、 技术笔记 2 遍2、CSDN 技术博客 3 篇3、 学习的 vlog 视频 1 个...

2022-01-18 17:19:34 938

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除