自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

平平淡淡,戒急用忍,一生学闭嘴。

平平淡淡,戒急用忍,一生学闭嘴。

  • 博客(6)
  • 资源 (2)
  • 收藏
  • 关注

原创 非平衡数据处理方式与评估

解决这一问题的基本思路是让正负样本在训练过程中拥有相同的话语权,比如利用采样与加权等方法。为了方便起见,我们把数据集中样本较多的那一类称为“大众类”,样本较少的那一类称为“小众类”。解决方式分为:一、相关方法总结1、采样采样方法是通过对训练集进行处理使其从不平衡的数据集变成平衡的数据集,在大部分情况下会对最终的结果带来提升。采样分为上采样(Oversampling,过采样)和下采样(U...

2020-01-31 17:00:10 925

原创 不平衡样本

对于二分类问题,理想的样本应该是50:50但现实中某些场景就是非平衡数据,如癌症检测(癌症患者在人类总数中总是占非常小的比例),金融欺诈(一般来说大家都是守法尊则的良好公民,欺诈一般占小比例)对于不平衡问题,一般将占比小的分类设为1,如欺诈和患癌症(一)不平衡样本的处理方式:(1)样本采样方面:欠采样(减法)过采样(加法)SMOTE(类似与过采样,区别在于采用算法生成新的样本(一般是...

2020-01-11 15:52:29 409

原创 graphviz画图

12345

2020-01-06 18:02:57 134

原创 excel替换问号

用~?转义?参考文献

2020-01-03 11:06:23 877

原创 pandas中read_csv的缺失值处理方式

今天遇到的问题是,要将一份csv数据读入dataframe,但某些列中含有NA值。对于这些列来说,NA应该作为一个有意义的level,而不是缺失值,但read_csv函数会自动将类似的缺失值理解为缺失值并变为NaN。看pandas文档中read_csv函数中这两个参数的描述,默认会将’-1.#IND’, ‘1.#QNAN’, ‘1.#IND’, ‘-1.#QNAN’, ‘#N/A N/A’,’#...

2020-01-03 11:04:04 1027

原创 用于特征选择的F-Score打分及其Python实现

F-Score(非模型评价打分,区别与 F1_score )是一种衡量特征在两类之间分辨能力的方法,通过此方法可以实现最有效的特征选择。最初是由台湾国立大学的Yi-Wei Chen提出的(参考《Combining SVMs with Various Feature Selection Strategies》),公式如下:其中i代表第i个特征,即每一个特征都会有一个F-score。x拔是所有该特...

2020-01-02 01:10:57 11086 17

SAS University Edition:Windows安装指南.pdf

SAS下载及安装指南,可劲薅。。。SAS engages industry analysts for their recommendations on our software, messaging and other market and competitive information. Analyst firms offer advice and research, through their publications, events and consulting projects, to companies that are evaluating technology purchases.

2020-07-15

尚硅谷MySql核心技术.txt

工具、视频、代码、笔记 MySQL是一个关系型数据库管理系统,由瑞典MySQL AB 公司开发,目前属于 Oracle 旗下产品。MySQL 是最流行的关系型数据库管理系统之一,在 WEB 应用方面,MySQL是最好的 RDBMS (Relational Database Management System,关系数据库管理系统) 应用软件之一。 MySQL是一种关系数据库管理系统,关系数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。 MySQL所使用的 SQL 语言是用于访问数据库的最常用标准化语言。MySQL 软件采用了双授权政策,分为社区版和商业版,由于其体积小、速度快、总体拥有成本低,尤其是开放源码这一特点,一般中小型网站的开发都选择 MySQL 作为网站数据库。 由于其社区版的性能卓越,搭配 PHP 和 Apache 可组成良好的开发环境。

2019-08-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除