数据分析--观察数据处理异常值 中位数、最大值最小值、标准差、偏度和峰度.......)(获取离散化的分布用numpy.histogram)文件见绑定资源(来自kaggle的HR.csv)使用了histogram和可视化两个方法。其他列的简单操作大部分都是删除空值。(将不同列放在一起观察并分析数据)这里的代码类似与sql的DQL代码。这里用到的是matplotlib。意思是删除只要有空值的行。二、找出缺失值的位置并删除。一、从df中拿出处理对象。(多了一个删除异常值)三、观察数据组成情况。
数据分析笔记1 ···四分位数计算方法:Q1的位置=(n+1)*0.25 (n为数据的个数)···离中趋势:标准差、方差--σ的值越大表示数据越离散,σ越小表示数据越聚拢。数据分析概述:数据获取--探索分析与可视化--预处理--分析建模--模型评估。····偏态系数S与峰态系数K--均值>中位数-->正偏反之为反偏。···相对数比较--结构相对数、比例相对数、比较相对数、强调相对数。···对比维度--时间维度、空间维度、经验与计划。···集中趋势:均值、中位数与分位数、众数。···抽样理论:抽样误差、抽样精度。
机器学习线性回归学习总结笔记 划分数据集的包from sklearn.model_selection import train_test_split。:实现了普通最小二乘线性回归模型。引包:from sklearn.metrics import mean_squared_error。:对输入数据集 X 进行标准化处理,即将 X 缩放到均值为 0、标准差为 1 的分布。:计算输入数据集 X 的均值和标准差。:将经过标准化处理的数据集 X 还原回原始数据空间,即逆转标准化操作。:先计算 X 的均值和标准差,然后对 X 进行标准化处理。
机器学习 l2正则化--岭回归 损失函数+λ惩罚项|w| (绝对值会使一些w的值直接=0,相当于删除了该特征的影响)损失函数+λ惩罚项w^2 (接近于0,削弱了特征值的影响)·SAG:如果数据集、特征都比较大,选择该随机梯度下降优化。·normalize:数据是否进行标准化(默认为False)L2正则化(更常用):Ridge回归--岭回归。·alpha:正则化力度--L2正则化的惩罚项的系数λ。正则化力度(alpha)越大-->权重系数 ( W ) 越小。正则化力度(alpha) 越小-->权重系数(W)越大。学习到的数据的特征过少。
机器学习线性回归 2)、梯度下降-试错、迭代、改进 sklearn.linear_model.SGDRegressor(loss="squared_loss",fit_intercept=True)函数关系 特征值(X1,X2,X3...)和目标值(h(W))的函数关系 w是权重 B是偏置。自变量一次 :h(w)=W1X1+W2X2+W3X3...+B。参数一次 :h()=w1x+w2x^2+w3x3^3...+B。公式:h(w)=W1X1+W2X2+W3X3...+B。fit()-->模型。
机器学习笔记1 (subset参数:'train'是训练集,'test'是测试集,'all'是全部)2) sklearn.datasets.load_boston()#加载返回波斯顿房价数据集。1) sklearn.datasets.load_iris()#加载并返回ying尾花数据集。load和fetch返回的数据类型是datasets.base.Bunch(字典格式)分类算法:K-近邻算法、贝叶斯分类、决策树和随机森林、逻辑回归。算法:聚类 K-means。目标值:连续型的数据-回归问题。目标值:类别-分类问题。
数据库sql函数归纳 case [expr] when [val1] then [res1] ...else [default] end 如果expr的值等于val1,返回res1,...否则返回默认值default;否则返回value2;lpad(str,n,pad) 左填充,用字符串pad对str的左边进行填充,达到n个字符串。rpad(str,n,pad) 右填充,用字符串pad对str的右边进行填充,达到n个字符串。round(x,y)求参数x的四舍五入的值,保留 y位小数。
数据库DCL语句归纳 alter user '用户名'@‘主机名’ identified with mysql_native_password by '新密码';create user ‘用户名’@‘主机名’ identified by '密码';revoke 权限列表 on 数据库名.表名 from '用户名'@'主机名';grant 权限列表 on 数据库名.表名 to '用户名'@'主机名';show grants for '用户名'@'主机名';用来管理数据库用户、控制数据库的访问权限。
数据库DQL语句的练习及其总结 - 查询年龄小等于20的员工年龄姓名,并对查询结果按照年龄升序排列,年龄相同按照入职时间降序排列;-- 查询男,年龄在18-20之间的前5个员工的信息,结果按照年龄升序,入职时间升序排列;-- 查询年龄为20,21,22,23的女性员工信息。-- 统计员工表中,年龄小于20的男性和女性人数;-- 查询性别男,20-40名字为两个字的员工。
数据库DQL语句归纳及练习 select 字段列表 from 表名【where条件】 group by 分组字段名【having 分组后过滤条件】;select 字段列表 from 表名 order by 字段1 排序方式1,字段2 排序方式2;select 字段列表 from 表名 LIMIT 起始索引,查询记录数;聚合函数:(count、max、min、avg、sum)起始索引=(页码-1)*每页展示记录数。分组查询:group by。ASC:升序(默认)
pandas简单练习 1.将字典创建为dataframe。2.提取有‘python’的行。5.统计第一列中数据出现的次数。12.提取大于3小于7的数据。14.提取列中最大的数据所在行。10.将数据保存至excel。9.将第一列数据转为列表。13.交换两列的位置。4.修改第二列的名字。7.去掉第一列重复值。