自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

孙砚秋的博客

好东西,就分享给朋友吧

  • 博客(652)
  • 资源 (1)
  • 收藏
  • 关注

原创 1,spark 与 scala 的对应版本查看

1 ,思路 :去 maven 查看2 ,网址 :https://mvnrepository.com/artifact/org.apache.spark/spark-core3 ,看到 :4 ,总结 :1 ,spark3.0 以后,不再支持 scala2.112 ,spark3.0 以后,只能用 scala2.125 ,题外话 :1 ,我刚才去 spark 官网查找对应关系,找了半天找不到,真心无语。2 ,有些官网做的,真新挺不为便群众着想的。3 ,如果不是有 maven 在,我可能还

2021-04-09 17:30:40 810 2

原创 01 ,zookeeper 介绍 :

1 ,zookeeper 官网 :https://zookeeper.apache.org/2 ,zookeeper 用处 :官方分布式协调服务3 ,个人理解 :1 ,zk 可以存储一些配置数据2 ,为什么要将这些数据存储在 zk 中 :因为 zk 永远不会倒3 ,为什么 zk 永远不会倒 :因为他酒量好 ( 开玩笑 ) ,因为它...

2020-10-13 20:56:57 79

原创 05 ,效果评估 : 估值函数

1 ,估值函数 :残差平方和 :真实值 - 预测值类似方差项 :类似于方差的计算方式,但是没有除以 m估值函数 :2 ,效果评估 :好 : 越接近于 1 越好差 : 越接近于 0 越差

2020-07-14 14:32:36 428 1

原创 04 ,线性回归 : 目标函数推导,对数求解,求导结果,θ 求出来了,真实情况

1 ,目的 : 求 θ不要忘了 : 一切的目的,都是求 θ似然函数 : 只要 θ 能使似然函数最大,这个 θ ,就是最优解,距离现实最近的解2 ,似然函数最大值 :似然函数 :思考 :1 ,乘法不好算,想使用对数来算2 ,可行性 : 反正求最大值,只要对数取到了最大值,似然函数整体就也是最大值3 ,为什么用 log : 因为求导以后,就变成了加法,容易计算对数求解 :3 ,累乘 =》 累加 : 使用对数,对函数进行变换转化 :目的 : 让这个函数去到最大值剔除无关项

2020-07-14 14:23:04 403

原创 03 ,线性回归 : 似然函数求解,所有概率乘积,最佳数据

1 ,误差值,真实值 :公式 :2 ,正态分布函数 : 误差规律函数公式 : 这是个误差规律函数 ( exp 代表 e 的 n 次方 )参数含义 :1 ,均值 : 02 ,exp : e 的 n 次方3 ,ε :误差项4 ,σ :标准差5 ,σ2 : 方差3 ,两式结合 :将 1 带入 2 中,得到 :带入过程 :参数解释 :1 ,真实值 :此处的 x ,y 都代表真实值2 ,θ : 未知量3 ,目的 : 代入进来,就是为了求 θ4 ,公式 p 的含义

2020-07-14 13:26:20 316

原创 02 ,线性回归 : 误差项分析,预测值与真实值的差异,误差值正态分布

1 ,误差项 : 预测值与真实值的差异ε : 代表误差项 ( 预测值与真实值的差异 )ε 读音 : 一浦西路对于每个样本 :如图 : 红点是真实值,平面是预测值2 ,误差值正态分布 :正泰分布 :1 ,数据 : 把每一组数值的误差值拿出来,形成一个集合 ( ε1,ε2,ε3…εn )2 ,均值 : 03 ,方差 : θ2如图 : 有几个样本,就有几个误差 ε3 ,误差项分析 : 实际意义差距不大 : 计算值与真实值,可能有误差,但是不会很大正泰分布 : 这些误差值之

2020-07-14 13:03:02 5304

原创 01 ,线性回归,简介 : 定义,分类,简单举例,默认列向量,x0=1,线性回归函数

1 ,线性回归 : 定义给定一些数据 : a,b,c,d,e…如果这些数据满足下面的方程,就称 ( 这些数据存在依赖关系 )如果想用回归分析,他们需要满足如下条件 :1 ,e :误差 ,服从均值为 0 的正态分布2 ,说明 : e1,e2…en 是一个正泰分布数据2 ,回顾 : 矩阵的乘法计算规律 : 行列数行列数规则 : (2,3) * (3,4) = (2,4)结果 : 2 行 4 列计算规则 :3 ,线性回归 : 理解给定数据 : 很多组,每一组数据,组成一行,所

2020-07-14 11:15:09 276

原创 11 ,逻回案例,招生 :回归函数,新增默认 1 列,

1 ,sigmod 函数 : 基本能回归函数函数 :2 ,插入新列 : 为了构造 θ0目的 : 构造回归函数f(x1,x2) = θ0 + θ1 * x1 + θ2 * x2插入一列 :原函数变成这样x1,x2 =》 1,x1,x2如图 :3 ,sigmoid 函数 :代码 :def sigmod(z): return 1/(1+np.exp(-z))如图 :4 ,线性函数 : 构造线性方程代码 :def xian(X:pd.DataFrame

2020-07-14 00:06:59 81

原创 10 ,逻回案例,高校招生 : 数据准备,解题思路

1 ,案例 : 目标小明想去美国留学,目的地是加州理工大学加州理工大学,对我们中国学生有两门考试,exam1,exam2我们有历史数据表,这是以往的学生成绩,和是否被录取的历史信息目的 :1 ,根据历史数据,得到逻辑回归模型2 ,根据回归模型,判断小明被录取的可能性有多大2 ,案例 : 数据的样子数据 :34.62365962451697,78.0246928153624,030.28671076822607,43.89499752400101,035.847408769938

2020-07-13 13:35:44 106

原创 09 ,逻辑回归 : 算法思路

1 ,sigmoid 函数 : 生长函数他的取值范围 : 0-1适合做概率 : 事务的概率也恰好是 0-12 ,逻辑回归思路 :首次代数 : 将真实值带入函数中,求 θ 值修正代数 : 然后再次带入真实值,不断的对函数进行修正n 次修正 : 经过一次次的修正,逻辑回归函数,几乎与真实值相吻合结果 : 得到概率密度函数3 ,例子 :确定模板函数 : sigmoid原因 : 因为他的范围是 0-1,符合概率的结果大小逻回函数,取值范围 :x : -∞ ~ + ∞y : 0

2020-07-13 01:32:44 97

原创 08 ,逻辑回归 : 首选算法,决策边界,Sigmoid 函数

1 ,Sigmoid 函数 : 生长函数逻辑回归 : 不是最复杂的算法,但是,是最有效的算法目的:分类还是回归?经典的二分类算法!2 ,做任务的思路 :首先 : 先用逻辑回归试一下优化 : 再用复杂逻辑试一下比较 :1 ,如果效果差不多,就用逻辑回归2 ,如果效果差的比较多,就用复杂的算法3 ,决策边界 :通常是线性的也可以是非线性的4 ,Sigmoid 函数 : 神经网络激活函数意义 :生物的生长函数,计算机中,用来作为神经网络的激活函数取值范围 :x : 负

2020-07-12 17:14:17 129

原创 07 ,梯度下降 : 总结,学习率,步长的大小控制

1 ,梯度下降 : 总结求梯度 : 偏导数向量和作用 : 确定梯度下降的方向步长 :每次下降多少距离2 ,学习率 :定义 : 就是上面说的步长,每次移动的距离大小 : 最好是小一点,不适合过大1 ,小 : 走得慢,效率低2 ,大 : 走得快,计算的结果不准学习原则 :1 ,小学习率 : 步长小一点2 ,大学习次数 : 学习的次数多一点3 ,学习率的变动 :大步找谷底 :范围内大步靠近 :极值范围内 : 小步移动4 ,学习率 : 常用取值常用值 :从我做过

2020-07-12 11:03:58 1425

原创 06 ,梯度下降 : 操作,三种方法

1 ,目标函数 :目的 :通过梯度下降法,求 θ函数 :2 ,批量梯度下降 : 全部样本特点 : 数据量大,因为他考虑到了所有样本优点 : 容易找到最优解缺点 : 计算速度慢公式 :3 ,随机梯度下降 : 随机找一个样本优点 : 块缺点 :不准公式 :4 ,小批量梯度下降法 : 实用特点 :每次更新选择一小部分数据来算,实用公式 :...

2020-07-12 10:46:32 52

原创 05 ,梯度下降:原理

1 ,θ 不一定可求 :并不是在任何情况下,θ 都能求出来的2 ,梯度 :理论 : 坡度最陡的方向如图 :3 ,梯度下降方向 :梯度的反方向4 ,梯度下降求解 :直接求解 : 那是线性回归的一种特例,不适用所有情况常规套路 :交给机器一堆数据,然后告诉它什么样的学习方式是对的(目标函数),然后让它朝着这个方向去做优化 : 一小步一小步的走5 ,梯度下降目标 : 走到山谷的最低点找到当前最合适的方向走那么一小步,走快了该”跌倒 ”了按照方向与步伐去更新我们的参数

2020-07-12 10:33:11 46

原创 04 ,回归函数求解 :似然函数求解,偏导数,凸优化思路,回归函数评估项

1 ,求最小二乘法的导数 :数据含义 :1 ,X : 矩阵 ( 多个维度的数值 )2 ,y : 向量 ( 结果 )对 θ 求偏导数 :2 ,

2020-07-11 19:28:10 187

原创 03 ,似然函数求解 :目标函数推导,对数似然求解,最小二乘法

1 ,真实值函数推导 : 真实值正态曲线定义 : 跟数据曲线很相似的函数个人思考 :1 ,目的 : 得到数据的正态分布图2 ,已知 : 高斯分布图 ( 误差分布图符合正态分布,也就是搞碎分布 )3 ,怎么样得到 : 将计算公式,带入到误差公式4 ,参数解释 :exp :e ,自然对数θ : 参数矩阵sigma : 标准差理论知识 :思考结论 :2 ,似然函数,意义 : 当前样本的概率真实值函数 : 个体概率似然函数 : 将样本中的每个值,带入到方程中,将每个样本的概率

2020-07-11 17:33:18 2863

原创 02 ,线性回归 :误差项分析 ( 真实值与函数值的差距 )

1 ,误差项 :产生原因 ( 预测与真实的差异 )原因 : 预测值与真实值之间是存在差异的例如 :1 ,红色点:是真实值2 ,平面:是预测值公式解释 :真实值 = 预测值 + 误差如图 :2 ,误差项 : 数据大小预测值 : 我们计算的值真实值 : 实际的数据误差值 : 真实值与预测值的差距误差值 : 数据大小1 ,有可能稍大2 ,有可能稍小3 ,不可能偏离太多4 ,绝大多数情况 : 符合正常标准误差值 : 数据分布 ( 满足正态分布 )3 ,误差项 : 高斯

2020-07-11 12:23:49 2950

原创 01 ,线性回归:算法概述,矩阵计算,补位数字 1

1 ,例子 : 贷款额度相关 : 贷款额度,跟两个变量有关 ( 工资,年龄 )权重不同 : 两个变量对于贷款额度的影响力不同2 ,数学知识 : 线性方程的结果 y 就是额度目标 : 我们只需要得到这个特征方程即可3 ,数学知识 : 根据方程,计算结果总结 : 得到这个方程,就可以依据方程,计算结果4 ,为了化简 : 方程计算 =》 矩阵计算目的 : 矩阵计算原方程 :希望 : 转化为矩阵问题 :θ0 怎么算,他是常数项解决 :添加 x0 项,令 x0=1

2020-07-11 10:44:55 100

原创 12,热度图 :颜色数据图

1 ,作用 :通过颜色,看数据2 ,颜色 - 数据大小 :代码 :if __name__ == '__main__': uniform_data = np.random.rand(3, 3) print(uniform_data) heatmap = sns.heatmap(uniform_data)结果 :3 ,极限取值 :代码 :ax = sns.heatmap(uniform_data, vmin=0.2, vmax=0.5)结果 :

2020-07-11 00:57:04 651

原创 11 ,FacetGrid 使用,分组画图 :各种图形,详细设置

1 ,分组画图,柱状图 : hist分组 : 吃饭时间分组 ( 午饭,晚饭 )求 : 有多少个给小费的代码 :g = sns.FacetGrid(tips, col="time")g.map(plt.hist, "tip");结果 :2 ,分组画图,散点图 :代码 :g = sns.FacetGrid(tips, col="sex", hue="smoker")g.map(plt.scatter, "total_bill", "tip", alpha=.7)g.add_

2020-07-11 00:45:42 710

原创 10 ,多层板分类图,啥都能画 :日期-账单,是否抽烟分类,所有参数

1 ,多层板,默认图例 :折线图代码 : sns.factorplot(x=“day”, y=“total_bill”, hue=“smoker”, data=tips)结果 :2 ,多层板 : 柱状图代码 : sns.factorplot(x=“day”, y=“total_bill”, hue=“smoker”, data=tips)结果 :3 ,多层板 : 散点图代码 :sns.factorplot(x="day", y="total_bill", hue="smoke

2020-07-10 23:12:36 69

原创 09 ,柱状图,点图 :多维度分析幸存率,更详细的点图

1 ,柱状图 ,多维度分析幸存率 :代码 :sns.barplot(x="sex", y="survived", hue="class", data=titanic);结果 :2 ,点图 ,多维度分析幸存率 :代码 :sns.pointplot(x="sex", y="survived", hue="class", data=titanic);结果 :3 ,更详细的点图 ,多维度分析幸存率 :代码 :sns.pointplot(x="class", y="su

2020-07-10 17:52:51 153

原创 08 ,盒图,横着的盒图,小提琴图,账单分男女统计

1 ,离群点 :例如 : 统计高中生身高多数人的身高范围 : 1.6m ~ 1.9m有的人很高 : 2.4m有的人很矮 : 1.1m具体算法 : 请看 31 ,盒图取值 :N < x < 3N2 ,盒图不取的值就是 : 离群点不同的算法 : 离群点是不同的2 ,盒图取数据 :将 100 个人按照身高排序取值 : 从第 1/4 出取值,一直到 3/4 处也就是 : 从第 25 名开始取值,一直取到第 75 名,其他人都不要3 ,IQR : 四分位距意义 : 数

2020-07-10 17:39:15 74

原创 07 ,多变量分析 : 散点图 stripplot,不重叠散点图 swarmplot

1 ,问题 :小费跟星期几的关系星期几 : 一共只有 7 个值怎么分析 :这种固定数量的离散化数学问题2 ,离散式散点图 :代码 :if __name__ == '__main__': # 读取三组数据 ( 泰坦尼克,小费,花瓣尺寸 ) titanic = pd.read_csv("titanic.csv") tips = pd.read_csv("tips.csv") iris = pd.read_csv("iris.csv") # 离散式,散点

2020-07-10 17:09:51 551

原创 06 ,回归分析 regplot : tips 数据,小费分析

1 ,tips 数据介绍 :下载地址 :https://github.com/mwaskom/seaborn-data/blob/master/tips.csv文件 :pd索引,总账单 ,小费, 性别,是否吸烟,星期几,哪顿饭 ,人数 total_bill tip sex smoker day time size0 16.99 1.01 Female No Sun Dinner 21 10.34

2020-07-10 15:04:54 490

原创 05 ,花瓣数据集:下载数据,特征分析图 pairplot

1 ,sns 提供的数据集有多少种 : 很多重数据集的名称 : https://github.com/mwaskom/seaborn-data数据集的用途 : 展示示例这些数据 : 已经被软件自带了,安装软件的同时,数据就存在了2 ,查看所有可用数据集的名字 :代码 : res = sns.get_dataset_names()结果 :[ 'anscombe', 'attention', 'brain_networks', 'car_crashes', 'diamonds', '

2020-07-10 13:33:19 440

原创 18 ,python 函数 : map ,ord

1 ,python 高级函数,map :对应项计算代码 :if __name__ == '__main__': def cheng(a): return a*a li = [1,2,3,4] res = map(cheng,li) print(li) print(list(res))结果 :[1, 2, 3, 4][1, 4, 9, 16]2 ,ord 函数 : 字符串 =》 编码ord 的作用 :得到字符串的 ascii

2020-07-09 12:10:17 503

原创 04 ,一维数据,二维数据 :map,ord,直方图,散点图,点色图

1 ,python 高级函数,map :对应项计算代码 :if __name__ == '__main__': def cheng(a): return a*a li = [1,2,3,4] res = map(cheng,li) print(li) print(list(res))结果 :[1, 2, 3, 4][1, 4, 9, 16]2 ,ord 函数 : 字符串 =》 编码ord 的作用 :得到字符串的 ascii

2020-07-09 12:08:13 432

原创 03 ,seaborn 颜色 : 正态分布图,多元正态分布,核密度估计图

1 ,多元正态分布 : 数据代码 :x, y = np.random.multivariate_normal([0, 0], [[1, -.5], [-.5, 1]], size=300).T2 ,核密度估计图 :sns.kdeplot含义 :根据已有数据,画图连线,推测数据走向3 ,数据的正态分布图 :代码 :if __name__ == '__main__': # 随机生成100个符合正态分布的数 x = np.random.randn(100) p

2020-07-08 17:16:45 454

原创 02 ,seaborn 调色板 : 指定颜色,颜色数量,连续颜色,线性渐变

1 ,调色板 : 介绍颜色很重要color_palette()能传入任何Matplotlib所支持的颜色color_palette()不写参数则默认颜色set_palette()设置所有图的颜色2 ,10 个基本颜色 :deep, muted, pastel, bright, dark, colorblind使用 :if __name__ == '__main__': current_palette = sns.color_palette() sns.palplot(

2020-07-08 14:58:44 1347

原创 01 ,seaborn 基本设置 :5种风格,外边框,图位置,子图风格,文字大小,线宽

1 ,画正弦曲线,2 条 : plot代码 :# 正弦曲线def sinplot(flip=1): x = np.linspace(1,10,100) plt.plot(x,np.sin(x)*flip) plt.plot(x+0.5,np.sin(x)*(flip+0.2))if __name__ == '__main__': sinplot(1)结果 :2 ,背景风格,5 种 : 常用 whitegrid5 种风格 :darkgrid,

2020-07-07 19:36:38 1500

原创 13 ,np 常用函数 :范围内取 n 个值,正态分布图,多元正态分布图

1 ,范围内取 n 个值 :0-10 范围,取 6 个值 :if __name__ == '__main__': x = np.linspace(0,10,6) print(x)结果 :[ 0. 2. 4. 6. 8. 10.]

2020-07-07 12:17:18 283

原创 10 ,盒图( 统计 ) boxplot :单盒,多盒

1 ,盒图,意义 : 中位数将数据排序 : 从小到大排序取到 3 个值 : 1/4 处,2/4 处 ,3/4 处1/2 处 : 实际上就是中位数中位数 :1 ,不是 :数据最大值的一半2 ,而是 :排名中间的那个位置的数据3 ,本质 : 是排名,不是数据2 ,盒图,单盒 : boxplot目的 : 泰坦尼克号,年龄统计代码 :if __name__ == '__main__': # 查看所有参数 : # print(plt.rcParams.keys())

2020-07-06 22:10:00 530

原创 04 ,plt 设置:x-y 范围,坐标点,外边框,plt 与 ax 的区别,推荐 ax :

1 ,x-y 范围 :代码 :if __name__ == '__main__': # 查看所有参数 : # print(plt.rcParams.keys()) # 通用设置 plt : 中文,正负号,宽度,颜色,样式 plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['axes.unicode_minus'] = False plt.rcParams['lines.linewidth

2020-07-06 20:53:49 452

原创 09 ,柱状图 (统计) hist :范围,分几份

1 ,目的 :将一堆数字分组每个区间有多少个2 ,柱状图 :plt.hist(data,range=(0,80),bins=16)目的 : 泰坦尼克号年龄统计代码 :if __name__ == '__main__': # 查看所有参数 : # print(plt.rcParams.keys()) # 通用设置 plt : 中文,正负号,宽度,颜色,样式 plt.rcParams['font.sans-serif'] = ['SimHei'] pl

2020-07-06 20:47:44 402

原创 08 ,散点图( x-y ) scatter :

1 ,散点图 :代码 :if __name__ == '__main__': # 查看所有参数 : # print(plt.rcParams.keys()) # 通用设置 plt : 中文,正负号,宽度,颜色,样式 plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['axes.unicode_minus'] = False plt.rcParams['lines.linewidth']

2020-07-06 20:26:45 152

原创 07 ,柱形图( x-y ) bar :plt 形式,ax 形式,横着的柱形图

1 ,柱形图,plt : plt.bar(x,y,0.5)代码 :if __name__ == '__main__': # 查看所有参数 : # print(plt.rcParams.keys()) # 通用设置 plt : 中文,正负号,宽度,颜色,样式 plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['axes.unicode_minus'] = False plt.rcParam

2020-07-06 19:54:27 294

原创 06 ,折线图( x-y ) plot,一图多线 :一个 plt 画多次,小窗位置

1 ,一图多线 : 折线图代码 :if __name__ == '__main__': # 查看所有参数 : # print(plt.rcParams.keys()) # 通用设置 plt : 中文,正负号,宽度,颜色,样式 plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['axes.unicode_minus'] = False plt.rcParams['lines.linewid

2020-07-06 18:01:40 1038

原创 05 ,子图 :多个 ax 进行画图,fig.add_subplot

1 ,画子图 : fig.add_subplot(1,3,1)代码 :if __name__ == '__main__': # 查看所有参数 : # print(plt.rcParams.keys()) # 通用设置 plt : 中文,正负号,宽度,颜色,样式 plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['axes.unicode_minus'] = False plt.rcPar

2020-07-06 15:39:50 1353

原创 03 ,plt 设置 rcParams :中文,正负号,线宽,线色,线条样式,常规例子,所有参数

1 ,所有配置 :https://matplotlib.org/tutorials/introductory/customizing.html#customizing-with-matplotlibrc-files2 ,查看所有的 key :rcParams.keys()3 ,中文支持 :plt.rcParams['font.sans-serif'] = ['SimHei']4 ,正负号 :plt.rcParams['axes.unicode_minus'] = False5 ,线条宽

2020-07-06 00:16:28 629 1

Typora-课件.zip

一款很好用的工具,很多人在使用,这个是 typora 使用指南,希望对大家有所帮助

2018-11-24

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除