自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 python学习之赋值运算

python赋值运算

2022-08-03 17:59:51 256

原创 SQL必知必会

SQL

2022-07-25 10:08:51 377 1

原创 因果推断学习资料

安慰剂检验链接 内容 备注 安慰剂检验!安慰剂检验!| 连享会主页 1、安慰剂检验的原理 2、安慰剂检验的四大方法及使用的期刊文章

2022-05-09 17:10:37 224

转载 HIVE动态分区

set hive.exec.dynamic.partition=true; -- 开启动态分区,默认是falseset hive.exec.dynamic.partition.mode=nonstrict; -- 开启允许所有分区都是动态的,否则必须要有一个静态分区才能使用-- 创建分区表create table test(id int ,name string )partition...

2019-07-21 15:30:42 1194

原创 python正则表达式

1、+ ? * {}都只对前一个字符起作用 abc+ 指的是abc,abcc..不是abc,abcabc..2、^和$有所不同,abc$指的是以abc结尾的字符串,而不是指以c为结尾3、[]表示一组字符中的任意一个字符,[tb]表示t或者b,re.findall('[tb]','tb)=['t','b']4、re.search表示检索整个字符串,返回第一个匹配的,re.match表示...

2019-05-07 21:06:59 96

原创 批梯度下降(BGD)、随机梯度下降(SGD)、小批量梯度下降(MBGD)的理解和python 实现

梯度下降一般有以下三种,分别是:批梯度下降(BGD)、随机梯度下降(SGD)、小批量梯度下降(MBGD)多元回归或者逻辑回归的梯度下降公式如下:1.批量梯度下降法(Batch Gradient Descent,简称BGD),它是梯度下降法最原始的形式,具体思路是在更新每一参数时都使用所有的样本来进行更新,也就是方程(1)中的m表示样本的所有个数。优点:全局最优解;易于并行实现...

2019-04-28 17:29:44 1326

原创 逻辑回归—极大似然估计的理解

极大似然估计是一种参数估计的方法。已知某个事件已经发生,求导致该事情发生的概率最大的原因。核心思想:找到参数 θ 的一个估计值,使得当前样本出现的可能性最大。即联合概率最大,需要写出联合概率密度函数,即似然函数,求似然函数最大时参数的值相当于求y最大时,x的值(凸函数,导数为0时,极值就是最值)逻辑回归采用极大似然函数做为损失函数的原因:一是梯度(偏导数)只与x,y相关,与si...

2019-04-27 14:19:56 1609

原创 正规方程求解多元回归

求解多元回归时要注意的问题:当特征数少于10000个时,一般采用正规方程求解参数(非梯度下降)特征过多时,求解逆矩阵也会过于复杂造成矩阵不可逆(奇异)的原因:一是特征之间可能高度相关,严重的多重共线性,应该删除高度相关的特征二是特征数过多,大大超过样本量,应该删除一些特征或者使用正则化方法...

2019-04-23 17:53:15 408

原创 机器学习-特征缩放

在采用梯度下降求解参数的过程中,各特征的范围相近时,算法的收敛速度更快,因此常常先对训练集的数据进行特征缩放,使用的方法一般为归一化(0-1)和标准化,注意的时y不需要特征缩放,特别的,训练机进行特征缩放的特征测试集的数据同样要特征缩放(如何缩放?????疑惑???)...

2019-04-19 15:00:18 209

原创 机器学习-梯度下降

1.参数要同时更新2.初始化不同,获得的最小值也不同,即得到的参数也不同,算法收敛到不同的局部最优解。凸函数只有全局最优解,无论如何初始化,不必担心陷入局部最优解3.越接近最小值时,收敛的速度最逐渐减慢,在学习率不变的情况下,越接近最小值(最优解),偏导数的绝对值会越来越小,所以算法收敛的速度会逐渐的减慢4.梯度下降求解参数时,如果特征处在相近的范围时(量纲相近)时,算法收敛得更快...

2019-04-18 14:37:19 213

原创 leetcode学习笔记一:移除元素(python)

题目描述:给定一个数组nums和一个值val,你需要原地移除所有数值等于val的元素,返回移除后数组的新长度。不要使用额外的数组空间,你必须在原地修改输入数组并在使用 O(1) 额外空间的条件下完成。元素的顺序可以改变。你不需要考虑数组中超出新长度后面的元素。例:给定 nums = [3,2,2,3], val = 3,函数应该返回新的长度 2, 并且 nums...

2019-04-16 21:23:59 146

原创 一文搞懂pandas中的去重

有两个数据集A和B,找出数据B中不属于数据集A中的数据,如下图所示:

2019-04-10 18:52:10 1061

原创 python学习之可迭代对象中的循环

一个可迭代对象中嵌套着一个可迭代对象m = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]n = [[2, 2, 2], [3, 3, 3], [4, 4, 4]]z=zip(m,n)for i,j in z:#因为可迭代对象中嵌套着可迭代对象,并且有两个元素 相当于嵌套的list [[1,2],[3,4]] print(i,j) [1, 2, 3...

2019-04-08 17:06:06 121

原创 python学习之Counter计数

可使用collection模块中的Counter函数对可迭代对象计数 from collections import Counterl=list('shfajsdas') #将可迭代对象字符串转化为listl['s', 'h', 'f', 'a', 'j', 's', 'd', 'a', 's']c=Counter(l) #利用Counter函数对列表计数c #返回Counter对象...

2019-04-08 14:27:45 703

原创 python日期和时间

import time #导入时间模块time.time() #当前时间戳1554450782.572194time.localtime() #获取当前时间元组time.struct_time(tm_year=2019, tm_mon=4, tm_mday=5, tm_hour=15, tm_min=53, tm_sec=15, tm_wday=4, tm_yday=95, tm_isd...

2019-04-05 16:02:54 77

原创 pandas学习笔记

DataFrame就是由一列一列的Series组成的,pandas相当于python的excel1.pandas无论是Series还是DataFrame的index都可以包含重复的indexdate={'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada','Nevada'], 'year': [2000, 2001, 2002, 20...

2019-04-02 16:31:37 204

原创 numpy学习笔记

1.shape=(2,)相当于shape=(1,2),不是(1,2) 如:np1=np.arange(1,10).reshape(3,3),统计函数np1.sum(0)和np1.sum(1)的shape相同,都是(3,)。注意:(3,)是一维,(1,3)是二维2.可以将一个标量赋值给numpy对象的切片,该标量会自动广播,而对list无法进行此操作import numpy as npn...

2019-03-29 10:52:47 193

原创 机器学习学习笔记—正则化的理解

这几天在学习李航的统计学习方法,来谈谈我对于机器学习中正则化的理解:什么是正则化 如何理解正则化 正则化的作用第一个问题,什么是正则化?正则化就是在损失函数后加上一个正则化项(惩罚项),其实就是常说的结构风险最小化策略,即经验风险(损失函数)加上正则化。一般模型越复杂,正则化值越大。正则化项是用来对模型中某些参数进行约束正则化的一般形式:其中,第一项是损失...

2018-03-25 17:15:03 9322 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除