sshi9
码龄5年
关注
提问 私信
  • 博客:68,759
    68,759
    总访问量
  • 41
    原创
  • 1,242,751
    排名
  • 16
    粉丝
  • 0
    铁粉

个人简介:少说少想多做

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:陕西省
  • 加入CSDN时间: 2019-09-27
博客简介:

sshi9的博客

查看详细资料
个人成就
  • 获得25次点赞
  • 内容获得6次评论
  • 获得239次收藏
  • 代码片获得451次分享
创作历程
  • 41篇
    2022年
成就勋章
创作活动更多

如何做好一份技术文档?

无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

174人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

SVC的模型评估指标

混淆矩阵混淆矩阵是二分类问题的多维衡量指标体系,在样本不平衡时极其有用。在混淆矩阵中,我们将少数类认为是正 例,多数类认为是负例。在决策树,随机森林这些普通的分类算法里,即是说少数类是1,多数类是0。在SVM里, 就是说少数类是1,多数类是-1。普通的混淆矩阵,一般使用{0,1}来表示。混淆矩阵中,永远是真实值在前,预测值在后。其实可以很容易看出,11和00的对角线就是全部预测正确的,01 和10的对角线就是全部预测错误的。模型整体效果:准确率准确率Accuracy就是所有预测正确的
原创
发布博客 2022.03.18 ·
3621 阅读 ·
0 点赞 ·
0 评论 ·
15 收藏

核函数在不同数据集上的表现

核函数在不同数据集的表现现在有一系列线性或非线性可分的数据,我们希望 通过绘制SVC在不同核函数下的决策边界并计算SVC在不同核函数下分类准确率来观察核函数的效用1. 导入所需要的库和模块import numpy as npimport matplotlib.pyplot as pltfrom matplotlib.colors import ListedColormapfrom sklearn import svmfrom sklearn.datasets impor...
原创
发布博客 2022.03.17 ·
360 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

线性SVM决策过程的可视化

线性SVM决策过程的可视化1.导入需要的模块from sklearn.datasets import make_blobsfrom sklearn.svm import SVCimport matplotlib.pyplot as pltimport numpy as np2.实例化数据集,可视化数据集X,y = make_blobs(n_samples=50, centers=2, random_state=0,cluster_std=0.6)plt.scatter(X[:,0
原创
发布博客 2022.03.16 ·
3242 阅读 ·
1 点赞 ·
0 评论 ·
17 收藏

sklearn中KMeans重要参数n_clusters

KmeansKMeans算法将一组N个样本的特征矩阵X划分为K个无交集的簇,直观上来看是簇是一组一组聚集在一起的数 据,在一个簇中的数据就认为是同一类。簇就是聚类的结果表现。 簇中所有数据的均值 通常被称为这个簇的“质心”(centroids)。在一个二维平面中,一簇数据点的质心的 横坐标就是这一簇数据点的横坐标的均值,质心的纵坐标就是这一簇数据点的纵坐标的均值。同理可推广至高维空间。Kmeans顺序 过程 1 随机抽取K个样本作为最初的质心 2 开始循环 2.1
原创
发布博客 2022.03.15 ·
2749 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

案例用逻辑回归制作评分卡

模型开发流程获取数据→数据清洗,特征工程→模型开发→模型检验与评估→模型上线→检测与报告案例1.导库,获取数据%matplotlib inlineimport numpy as npimport pandas as pdfrom sklearn.linear_model import LogisticRegression as LRdata = pd.read_csv(r"D:\Sklearn\rankingcard.csv",index_col=0)2.探索数据与数据预处理
原创
发布博客 2022.03.14 ·
2108 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

逻辑回归L1和L2正则化

正则化正则化是用来防止模型过拟合的过程,常用的有L1正则化和L2正则化两种选项,分别通过在损失函数后加上参数向 量 的L1范式和L2范式的倍数来实现。这个增加的范式,被称为“正则项”,也被称为"惩罚项"。损失函数改变,基 于损失函数的最优化来求解的参数取值必然改变,我们以此来调节模型拟合的程度。L1范式表现为参数向量中 的每个参数的绝对值之和,L2范数表现为参数向量中的每个参数的平方和的开方值。重要参数penalty & C参数 说明 penalty...
原创
发布博客 2022.03.11 ·
5699 阅读 ·
1 点赞 ·
0 评论 ·
21 收藏

降维算法PCA和SVD

PCASVD和主成分分析PCA都属于矩阵分解算法中的入门算法,都是通过分解特征矩阵来进行降维,在降维中,PCA使用的信息量衡量指标,就是样本方差,又称可解释性方 差,方差越大,特征所带的信息量越多。重要参数n_componentsn_components是我们降维后需要的维度,即降维后需要保留的特征数量案例:高维数据可视化1.调用库和模块import matplotlib.pyplot as pltfrom sklearn.datasets imp...
原创
发布博客 2022.03.09 ·
1942 阅读 ·
0 点赞 ·
1 评论 ·
3 收藏

Sklearn中数据预处理

数据预处理Sklearn中的模块preprocessing:几乎包含数据预处理的所有内容数据无量纲化在机器学习算法实践中,我们往往有着将不同规格的数据转换到同一规格,或不同分布的数据转换到某个特定分布 的需求,这种需求统称为将数据“无量纲化”。数据的无量纲化可以是线性的,也可以是非线性的。线性的无量纲化包括中心化(Zero-centered或者Mean subtraction)处理和缩放处理(Scale)。中心化的本质是让所有记录减去一个固定值,即让数据样本数...
原创
发布博客 2022.03.05 ·
5297 阅读 ·
6 点赞 ·
0 评论 ·
53 收藏

随机森林与决策树效益对比

随机森林随机森林是非常具有代表性的Bagging集成算法,它的所有基评估器都是决策树,分类树组成的森林就叫做随机森林分类器,回归树所集成的森林就叫做随机森林回归器。重要参数1.控制基评估器的参数控制基评估器的参数 参数 含义 criterion 不纯度的衡量指标,有基尼系数和信息熵两种选择 max_depth 树的最大深度,超过最大深度的树枝都会被剪掉 min_samples_leaf 一个节点在分枝后的每个子节点都必须包含至少min_samples_l
原创
发布博客 2022.03.02 ·
1625 阅读 ·
0 点赞 ·
1 评论 ·
14 收藏

决策树在Sklearn中的实现

Sklearnscikit-learn,又写作sklearn,是一个开源的基于python语言的机器学习工具包。它通过NumPy, SciPy和 Matplotlib等python数值计算的库实现高效的算法应用,并且涵盖了几乎所有主流机器学习算法。决策树决策树(Decision Tree)是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规 则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。决策树算法容易理解,适用各种数据,在解决各 种问题时都有良好表现,尤其是以
原创
发布博客 2022.03.01 ·
1593 阅读 ·
3 点赞 ·
0 评论 ·
11 收藏

linux文件和目录命令

linux终端命令格式command [-options] [parameter]command :命令名,相应功能的英文单词或单词的缩写[-options] :选项,可用来对命令进行控制,也可以省略parameter :传给命令的参数,可以是 零个、一个 或者 多个目录常用命令查看目录内容ls ls是英文单词 list 的简写,其功能为列出目录的内容ls 常用选项-a 显示指定目录下所有子目录与文件,包括隐藏文件 -l 以列表方式显示文件的详细信息
原创
发布博客 2022.02.24 ·
689 阅读 ·
1 点赞 ·
1 评论 ·
0 收藏

mysql事务

事务一个事务是一个完整的业务逻辑单元,不可再分。比如:银行账户,从A账户向B账户转账10000元,需要执行两条update语句。 update t_act set balance = balance - 10000 where actno = 'act-001'; update t_act set balance = balance + 10000 where actno = 'act-002';以上两条DML语句必须同时成功,或者同时失败,不允许出现一条成...
原创
发布博客 2022.02.19 ·
90 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

mysql约束

约束常见的约束非空约束,not null唯一约束,unique 主键约束,primary key外键约束,foreign key自定义检查约束,check非空约束非空约束,针对某个字段设置其值不为空,如:学生的姓名不能为空student_name varchar(20) not null唯一约束唯一性约束修饰的字段具有唯一性,不能重复。但可以为null。如:emai...
原创
发布博客 2022.02.17 ·
122 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

mysql表的操作-创建添加删除修改

创建表建表语句的语法格式: create table 表名( 字段名1 数据类型, 字段名2 数据类型, 字段名3 数据类型, .... );MySql常用数据类型 类型 描述 Char(长度) 定长字符串,存储空间大小固定,适合作为主键或外键 Varchar(长度) ...
原创
发布博客 2022.02.16 ·
289 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MySQL 连接查询和子查询

连接查询连接查询:也可以叫跨表查询,需要关联多个表进行查询连接查询分类根据语法出现的年代来划分的话,包括: SQL92 SQL99根据表的连接方式来划分,包括: 内连接: 等值连接 非等值连接 自连接 外连接: 左外连接(左连接) 右外连接(右连接) 全连接笛卡尔积现象:当两张表进行连...
原创
发布博客 2022.02.15 ·
1350 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

mysql 分组查询

分组查询分组查询主要涉及到两个子句,分别是:group by和havinggroup by取得每个工作岗位的工资合计,要求显示岗位名称和工资合计将原始数据按照职位部门和薪资分组原始数据分组后having如果想对分组数据再进行过滤需要使用having子句取得每个岗位的平均工资大于2000分组函数的执行顺序:1.根据条件查询数据2.分组3.采用having过滤,取得正确的数据select总结一个完整的select语句格式如下:...
原创
发布博客 2022.02.14 ·
194 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Mysql查询

简单查询首选创建一个数据库并且导入所需sql文件查看表结构查询一个字段查询员工姓名Select语句后面跟的是字段名称,select是关键字,select和字段名称之间采用空格隔开,from表示将要查询的表,它和字段之间采用空格隔开查询多个字段查询员工的编号和姓名查询多个字段,select中的字段采用逗号间隔即可,最后一个字段,也就是在from前面的字段不能使用逗号了查询全部字段条件查询条件查询需要用到where语句,where必须放...
原创
发布博客 2022.02.14 ·
420 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

pandas时间序列应用

生成一段时间范围pd.date range(start=None, end=None, periods=None, freq='D')start和end以及freq配合能够生成start和end范围内以频率freq的一组时间索引start和periods以及freq配合能够生成从start开始的频率为freq的periods个时间索引# coding:utf-8import pandas as pd# 打印每天日期 D天 M月print(pd.date_range(start=.
原创
发布博客 2022.02.13 ·
146 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数据合并和分组聚合

数据合并
原创
发布博客 2022.02.12 ·
903 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

pandas-series和dataframe

pandasPandas 是一个开放源码、BSD 许可的库,提供高性能、易于使用的数据结构和数据分析工具。Pandas 名字衍生自术语 "panel data"(面板数据)和 "Python data analysis"(Python 数据分析)Pandas 一个强大的分析结构化数据的工具集,基础是Numpy(提供高性能的矩阵运算)Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数据。Pandas 可以对各种数据进行运算操作,比如归并...
原创
发布博客 2022.02.11 ·
1996 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多