爱琢磨先森-CSDN博客

原创 python学习之赋值运算

python赋值运算

2022-08-03 17:59:51 264

原创 SQL必知必会

SQL

2022-07-25 10:08:51 385 1

原创因果推断学习资料

安慰剂检验链接内容备注安慰剂检验！安慰剂检验！| 连享会主页 1、安慰剂检验的原理 2、安慰剂检验的四大方法及使用的期刊文章

2022-05-09 17:10:37 242

转载 HIVE动态分区

set hive.exec.dynamic.partition=true; -- 开启动态分区，默认是falseset hive.exec.dynamic.partition.mode=nonstrict; -- 开启允许所有分区都是动态的，否则必须要有一个静态分区才能使用-- 创建分区表create table test(id int ,name string )partition...

2019-07-21 15:30:42 1241

原创 python正则表达式

1、+ ？ * {}都只对前一个字符起作用 abc+ 指的是abc,abcc..不是abc,abcabc..2、^和$有所不同，abc$指的是以abc结尾的字符串，而不是指以c为结尾3、[]表示一组字符中的任意一个字符，[tb]表示t或者b,re.findall('[tb]','tb)=['t','b']4、re.search表示检索整个字符串,返回第一个匹配的,re.match表示...

2019-05-07 21:06:59 104

原创批梯度下降(BGD)、随机梯度下降(SGD)、小批量梯度下降(MBGD)的理解和python 实现

梯度下降一般有以下三种，分别是：批梯度下降(BGD)、随机梯度下降(SGD)、小批量梯度下降(MBGD)多元回归或者逻辑回归的梯度下降公式如下：1.批量梯度下降法（Batch Gradient Descent，简称BGD），它是梯度下降法最原始的形式，具体思路是在更新每一参数时都使用所有的样本来进行更新，也就是方程（1）中的m表示样本的所有个数。优点：全局最优解；易于并行实现...

2019-04-28 17:29:44 1361

原创逻辑回归—极大似然估计的理解

极大似然估计是一种参数估计的方法。已知某个事件已经发生，求导致该事情发生的概率最大的原因。核心思想：找到参数 θ 的一个估计值，使得当前样本出现的可能性最大。即联合概率最大，需要写出联合概率密度函数，即似然函数，求似然函数最大时参数的值相当于求y最大时，x的值(凸函数，导数为0时，极值就是最值)逻辑回归采用极大似然函数做为损失函数的原因：一是梯度(偏导数)只与x,y相关,与si...

2019-04-27 14:19:56 1641

原创正规方程求解多元回归

求解多元回归时要注意的问题：当特征数少于10000个时，一般采用正规方程求解参数（非梯度下降）特征过多时，求解逆矩阵也会过于复杂造成矩阵不可逆(奇异)的原因：一是特征之间可能高度相关，严重的多重共线性，应该删除高度相关的特征二是特征数过多，大大超过样本量，应该删除一些特征或者使用正则化方法...

2019-04-23 17:53:15 421

原创机器学习-特征缩放

在采用梯度下降求解参数的过程中，各特征的范围相近时，算法的收敛速度更快，因此常常先对训练集的数据进行特征缩放，使用的方法一般为归一化(0-1)和标准化，注意的时y不需要特征缩放，特别的，训练机进行特征缩放的特征测试集的数据同样要特征缩放(如何缩放？？？？？疑惑？？？)...

2019-04-19 15:00:18 221

原创机器学习-梯度下降

1.参数要同时更新2.初始化不同，获得的最小值也不同，即得到的参数也不同，算法收敛到不同的局部最优解。凸函数只有全局最优解，无论如何初始化，不必担心陷入局部最优解3.越接近最小值时，收敛的速度最逐渐减慢，在学习率不变的情况下，越接近最小值(最优解)，偏导数的绝对值会越来越小，所以算法收敛的速度会逐渐的减慢4.梯度下降求解参数时，如果特征处在相近的范围时(量纲相近)时，算法收敛得更快...

2019-04-18 14:37:19 228

原创 leetcode学习笔记一：移除元素（python）

题目描述：给定一个数组nums和一个值val，你需要原地移除所有数值等于val的元素，返回移除后数组的新长度。不要使用额外的数组空间，你必须在原地修改输入数组并在使用 O(1) 额外空间的条件下完成。元素的顺序可以改变。你不需要考虑数组中超出新长度后面的元素。例：给定 nums = [3,2,2,3], val = 3,函数应该返回新的长度 2, 并且 nums...

2019-04-16 21:23:59 159

原创一文搞懂pandas中的去重

有两个数据集A和B，找出数据B中不属于数据集A中的数据，如下图所示：

2019-04-10 18:52:10 1077

原创 python学习之可迭代对象中的循环

一个可迭代对象中嵌套着一个可迭代对象m = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]n = [[2, 2, 2], [3, 3, 3], [4, 4, 4]]z=zip(m,n)for i,j in z:#因为可迭代对象中嵌套着可迭代对象，并且有两个元素相当于嵌套的list [[1,2],[3,4]] print(i,j) [1, 2, 3...

2019-04-08 17:06:06 131

原创 python学习之Counter计数

可使用collection模块中的Counter函数对可迭代对象计数 from collections import Counterl=list('shfajsdas') #将可迭代对象字符串转化为listl['s', 'h', 'f', 'a', 'j', 's', 'd', 'a', 's']c=Counter(l) #利用Counter函数对列表计数c #返回Counter对象...

2019-04-08 14:27:45 710

原创 python日期和时间

import time #导入时间模块time.time() #当前时间戳1554450782.572194time.localtime() #获取当前时间元组time.struct_time(tm_year=2019, tm_mon=4, tm_mday=5, tm_hour=15, tm_min=53, tm_sec=15, tm_wday=4, tm_yday=95, tm_isd...

2019-04-05 16:02:54 84

原创 pandas学习笔记

DataFrame就是由一列一列的Series组成的,pandas相当于python的excel1.pandas无论是Series还是DataFrame的index都可以包含重复的indexdate={'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada','Nevada'], 'year': [2000, 2001, 2002, 20...

2019-04-02 16:31:37 215

原创 numpy学习笔记

1.shape=(2,)相当于shape=(1,2),不是(1,2) 如：np1=np.arange(1,10).reshape(3,3),统计函数np1.sum(0)和np1.sum(1)的shape相同，都是(3,)。注意：(3,)是一维，(1,3)是二维2.可以将一个标量赋值给numpy对象的切片，该标量会自动广播，而对list无法进行此操作import numpy as npn...

2019-03-29 10:52:47 210

原创机器学习学习笔记—正则化的理解

这几天在学习李航的统计学习方法，来谈谈我对于机器学习中正则化的理解：什么是正则化如何理解正则化正则化的作用第一个问题，什么是正则化？正则化就是在损失函数后加上一个正则化项（惩罚项），其实就是常说的结构风险最小化策略，即经验风险（损失函数）加上正则化。一般模型越复杂，正则化值越大。正则化项是用来对模型中某些参数进行约束正则化的一般形式：其中，第一项是损失...

2018-03-25 17:15:03 9360 3

m0_37952909的博客