自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(44)
  • 收藏
  • 关注

原创 Matplotlib初相识

matplotlibMatplotlib是一个Python 2D绘图库,能够以多种硬拷贝格式和跨平台的交互式环境生成出版物质量的图形,用来绘制各种静态,动态,交互式的图表。Matplotlib可用于Python脚本,Python和IPython Shell、Jupyter notebook,Web应用程序服务器和各种图形用户界面工具包等。Matplotlib是Python数据可视化库中的泰斗,它已经成为python中公认的数据可视化工具,我们所熟知的pandas和seaborn的绘图接口其

2022-01-10 17:28:01 647

原创 DataWhale组队学习-集成学习上task1

集成学习task1回归回归分析是通过建立数学模型来研究变量与变量之间的内在关系的一种数学方法。种类按照自变量的数量|一元回归多元回归自变量与因变量之间线性关系|线性回归非线性回归例子首先,我们先来看看有监督学习中回归的例子,我们使用sklearn内置数据集Boston房价数据集。sklearn中所有内置数据集都封装在datasets对象内| 返回的对象有|from sklearn import datasetsboston = datasets.load

2021-03-15 17:31:32 313

原创 学术前沿趋势分析

学术前沿趋势分析任务一,论文数据统计任务说明数据集介绍arXiv论文类别介绍代码实现及官方讲解导入需要的包Json函数Json类型转换到Python的类型对照表Python对象类型转化为Json类型对照表数据预处理数据分析及可视化任务一,论文数据统计任务说明任务主题:统计2019年全年计算机各个方向论文数量任务内容:赛题理解、使用Pandas读取数据并进行统计数据集介绍数据来源:[数据集地址]https://www.kaggle.com/Cornell-University/arxiv

2021-01-11 17:02:53 1137

原创 SQL综合练习

题目题目链接练习一CREATE TABLE employee(id INTEGER NOT NULL, `name` VARCHAR(20) NOT NULL, salary INTEGER NOT NULL, departmentid INTEGER NOT NULL, PRIMARY KEY (id));INSERT IN

2020-12-29 16:22:55 241

原创 ogog

今天忙,后补

2020-12-26 22:04:03 244

原创 Go并发编程

12.并发编程12.1 并发与并行Erlang 之父 Joe Armstrong曾经以下图解释并发与并行。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kphc5QG2-1608887376218)(https://github.com/datawhalechina/go-talent/raw/master/img/cor.jpg)]并发在图中的解释是两队人排队接咖啡,两队切换。并行是两个咖啡机,两队人同时接咖啡。“Concurrency is about dea

2020-12-25 17:10:46 88

原创 Go反射机制

反射机制反射的概念反射由Smith在1982年首次提出的,主要是指程序可以访问、检测和修改它本身状态或行为的一种能力。Go语言提供了一种机制在运行时更新变量和检查它们的值、调用它们的方法,但是在变异时并不知道这些变量的具体类型,这称为反射机制。反射的作用在编写不定传参类型函数的时候,或传入类型过多时典型应用是对象关系映射type User struct { gorm.Model Name string Age sql.NullInt64 Brithday *time

2020-12-24 17:28:59 153 1

原创 Go异常处理

9.异常处理##9.1 errorGo语言内置了一个简单的错误接口作为一种错误处理机制,接口定义如下:type error interface { Error() string}它包含一个 Error() 方法,返回值为stringGo的error构造有两种方式,分别是第一种:errors.New()err := errors.New("This is an error")if err != nil { fmt.Print(err)}第二种:fmt.Errorf()err

2020-12-23 22:00:29 243

原创 SQL高级处理

SQL高级处理窗口函数窗口函数概念及基本的使用方法窗口函数也称为OLAP(OnLine AnalyticalProcessing)函数。对数据库数据进行实时分析处理。为了便于理解,称之为窗口函数。常规的SELECT语句都是对整张表进行查询,而窗口函数可以让我们有选择的去某一部分数据进行汇总、计算和排序。窗口函数的通用形式:<窗口函数> OVER ([PARTITION BY <列名>] ORDER BY <排序用列名>)*[]中的内容可以省略。

2020-12-23 11:45:46 90

原创 Go包管理

8.包管理8.1 Go Modules是什么?Go语言通过包管理来封装模块和复用代码,这里我们只介绍Go Modules管理方法Go Modules于Go语言1.11版本时引入,在1.12版本正式支持,是由Go语言官方提供的包管理解决方案Modules是相关Go包的集合,是源代码交换和版本控制的单元。go命令直接支持使用Modules,包括记录和解析对其他模块的依赖性8.2 Go Modules的使用方法8.2.1 环境变量首先需要设置环境变量,可以使用go env命令查看当前配置。$ go

2020-12-22 21:56:52 315

原创 sql集合运算

集合运算表的加减法什么是集合运算集合在数学领域表示“各种各样的事物的总和”,在数据库领域表示记录的集合。表、视图和查询的执行结果都是记录的集合,其中的元素为表或者查询结果中的每一行。在标准SQL中,分别对检索结果使用UNION,INTERSECT,EXCEPT来将检索结果进行并,交和差运算,对应的UNION,INTERSECT,EXCEPT这种用来进行集合运算的运算符称为集合运算符。在数据库中,所有的表以及查询结果都可以视为集合,因此也可以吧表视为集合进行上述集合运算。上述画图方法 非常有助于

2020-12-22 21:51:23 890

原创 Go语言结构体、方法、接口

结构体、方法、接口结构体Go 语言中没有“类”的概念,也不支持像继承这种面向对象的概念。但是Go 语言的结构体与“类”都是复合结构体,而且Go 语言中结构体的组合方式比面向对象具有更高的扩展性和灵活性。结构体定义结构体一般定义如下:type identifier struct { field1 type1 field2 type2 ...}例如,我们想声明一个学生的结构体类型:type Student struct { Name string Age int}结构体中字段的

2020-12-21 22:22:04 451

原创 Go语言函数

函数6.1 函数定义在go语言中函数定义格式如下:func functionName([parameter list]) [returnTypes]{ //body}函数由func关键字进行声明。functionName:代表函数名。parameter list:代表参数列表,函数的参数是可选的,可以包含参数也可以不包含参数。returnTypes:返回值类型,返回值是可选的,可以有返回值,也可以没有返回值。body:用于写函数的具体逻辑例1:下面的函数是用于求两个数的和

2020-12-20 22:34:02 135

原创 Go语言数组与切片

5.数组、切片5.1 数组5.1.1 如何定义数组数组是具有相同类型且长度固定的一组连续数据。在go语言中我们可以使用如下几种方式来定义数组。//方式一var arr1 = [5]int{}//方式二var arr2 = [5]int{1,2,3,4,5}//方式三var arr3 = [5]int{3:10}输出以上三个变量的值如下所示:arr1 [0 0 0 0 0]arr2 [1 2 3 4 5]arr3 [0 0 0 10 0]方法一在声明时没有为其指定初值,所以数

2020-12-19 22:24:33 198 1

原创 SQl复杂一点的查询

复杂一点的查询视图我们先来看一个查询语句(仅做示例,未提供相关数据)SELECT stu_name FROM view_students_info;单从表面上看起来这个语句是和正常的从数据表中查询数据是完全相同的,但其实我们操作的是一个视图。所以从SQL的角度来说操作视图与操作表看起来是完全相同的,那么为什么还会有视图的存在呢?视图到底是什么?视图与表有什么不同呢?什么是视图视图是一个虚拟的表,不同于直接操作数据表,视图是依据SELECT语句来创建的(会在下面具体介绍),所以操作视图时会根据创

2020-12-19 21:49:20 543 1

原创 Go语言字典、字符串

字典、字符串字典map是一种较为特殊的数据结构,在任何一种编程语言中都可以看见他的身影,它是一种键值对结构,通过给定的key可以快速获得对应的value。如何定义字典var m1 map[string]intm2 := make(map[int]interface{}, 100)m3 := map[string]string{ "name": "james", "age": "35",}在定义字典时不需要为其指定容量,因为map是可以动态增长的,但是在可以预知map容量的情况下为了提

2020-12-18 21:54:55 357 1

原创 Go运算符、控制语句

运算符、控制语句运算符假定 A 值为 10,B 值为 20。算数运算符运算符描述实例+相加A + B 输出结果 30-相减A - B 输出结果 -10*相乘A * B 输出结果 200/相除B / A 输出结果 2%求余B % A 输出结果 0++自增A++ 输出结果 11–自减A-- 输出结果 9关系运算符运算符描述==检查两个值是否相等,如果相等返回 True 否则返回 False

2020-12-17 17:23:17 82

原创 SQL基础查询与排序

select语句基础从表中选取数据SELECT语句从表中选取数据时需要使用SELECT语句,也就是只从表中选出(SELECT)必要数据的意思。通过SELECT语句查询并选取出必要数据的过程称为匹配查询或查询(query)。基本SELECT语句包含了SELECT和FROM两个子句(clause)。示例如下:SELECT <列名>, FROM <表名>;其中,SELECT子句中列举了希望从表中查询出的列的名称,而FROM子句则指定了选取出数据的表的名称。从表中选取符合

2020-12-17 16:58:25 1032

原创 Go语言变量、常量、枚举

变量、常量、枚举变量变量—计算机语言能存储结算结果或者表示值的抽象概念。可以通过变量名访问,变量名由字母、数字、下划线组成,其中首个字符不能为数字。声明变量的一般形式时使用var关键字:var indentifier typevar identifier1,identifier2 type变量声明方式:指定变量类型,若没有初始化,数字类型(包括complex64/128)默认零值,bool默认false,字符窜默认“”,“var a *int、var a []int、var a map[s

2020-12-16 12:55:54 130

原创 Go语言数据类型、关键字、标识符

2020-12-15 16:17:18 96

原创 GO语言初探

Go初探Go语言特性自动垃圾回收更丰富的内置类型函数多返回值错误处理匿名函数和闭包类型和接口并发编程反射语言交互性语言结构包声明引入包函数变量语句和表达式注释package main//定义包名,必须在非注释第一行指明import "fmt"func main(){ /* Always Hello,World! */ fmt.Println("Hello,World!")}解释:package main定义了包名。必须在源文件中非注释的第一行指明

2020-12-14 17:36:33 76

原创 数据库的创建、删除、修改

数据库学习一数据库(一)初识数据库DBMS的种类RDBMS的常见系统结构初识SQLSQL的基本书写规则数据库的创建(CREATE TABLE语句)表的创建(CREATE TABLE 语句)命名规则数据类型的指定约束的设置表的删除和更新向product表中插入数据练习数据库(一)初识数据库数据库(Database,DB)是将大量数据保存起来,通过计算机加工而成的可以进行高效访问的数据集合。该数据集和称为数据库。用来管理数据库的计算机系统成为数据库管理系统(Database Management Syst

2020-12-14 15:36:39 587

原创 利用Numpy进行鸢尾花数据集分析

利用Numpy进行鸢尾花数据集分析Numpy进行鸢尾花数据集分析使用鸢尾花数据集“iris_data”1. 导入鸢尾花数据集,保持文本不变2求出鸢尾属植物萼片的平均值,中位数和标准差(第一列,sepallenth)3.创建一种标准化形式的鸢尾属植物萼片长度,其值正好介于0和1之间,这样最小值为0,最大值为1(第1列,sepallength)。4. 找到鸢尾属植物萼片长度的第5和第95百分位数(第1列,sepallength)。5. 把iris_data数据集中的20个随机位置修改为np.nan值。6. 在i

2020-12-01 11:14:46 9321 4

原创 Numpy下-线性代数

Numpy线性代数线性代数矩阵和向量积矩阵特征值与特征向量矩阵分解**奇异值分解****QR分解****Cholesky分解**范数和其它数字**矩阵的范数****方阵的行列式****矩阵的秩****矩阵的迹**解方程和逆矩阵**逆矩阵(inverse matrix)****求解线性方程组**线性代数Numpy 定义了 matrix 类型,使用该 matrix 类型创建的是矩阵对象,它们的加减乘除运算缺省采用矩阵方式计算,因此用法和Matlab十分类似。但是由于 NumPy 中同时存在 ndarray

2020-11-29 20:13:20 89

原创 Numpy统计相关学习笔记

Numpy统计相关统计相关次序统计计算最小值计算最大值计算极差计算分位数均值与方差计算中位数计算平均值计算加权平均计算方差计算标准差相关计算协方差矩阵计算相关系数直方图统计相关次序统计计算最小值numpy.amin(a[,axis=None,out=None,keepdims=np._NoValue,initial=np._NoValue,where=np._NoValue])Return the minimum of an array or minimum along an axis.【例

2020-11-26 17:06:19 154

原创 新闻推荐基线方案

新闻推荐基线方案塞题理解赛题介绍数据概况数据表train_click_logtestA_click_logarticlesarticles_emb字段表评价方式理解赛题理解目标:问题来了思路Baseline导包节省内存函数读取采样或全量数据获取 用户 - 文章 - 点击时间字典获取点击最多的topk个文章itemcf的物品相似度计算itemcf 的文章推荐给每个用户根据物品的协同过滤推荐文章召回字典转换成df生成提交文件塞题理解赛题介绍此次比赛是新闻推荐场景下的用户行为预测挑战赛, 该赛题是以新闻AP

2020-11-25 16:24:13 123

原创 numpy随机抽样及各种分布函数详解

numpy抽样随机抽样离散型随机变量二项分布泊松分布超几何分布连续型随机变量均匀分布正态分布指数分布其他随机函数随机从序列中获取元素对数据集进行洗牌操作随机抽样numpy.random模块对Python内置的random进行了补充,增加了一些用于高效生成多种概率分布的样本值的函数,如正态分布、泊松分布等。numpy.random.seed(sedd=None) Seed the generatorseed()用于指定随机数生成时所用算法开始的整数值,如果使用相同的seed()值,则每次生成的随机

2020-11-25 10:50:23 4211

原创 numpy下06输入与输出

输入和输出numpy 二进制文件save()、savez()和load()函数以 numpy 专用的二进制类型(npy、npz)保存和读取数据,这三个函数会自动处理ndim、dtype、shape等信息,使用它们读写数组非常方便,但是save()输出的文件很难与其它语言编写的程序兼容。npy格式:以二进制的方式存储文件,在二进制文件第一行以文本形式保存了数据的元信息(ndim,dtype,shape等),可以用二进制工具查看内容。npz格式:以压缩打包的方式存储文件,可以用压缩软件解压。nump

2020-11-23 22:41:48 103

原创 2020-10-31

排序搜索计数及集合操作临时有事,没有来得及完成,后补!

2020-10-31 22:20:19 40

原创 10月NumPy学习-数学函数与逻辑函数

数学函数与逻辑函数数学函数算数运算三角函数指数和对数加法函数、乘法函数四舍五入杂项逻辑函数真值测试数组内容逻辑运算对照数学函数算数运算numpy.add(x1,x2,args,**kwargs)numpy.subtrack(x1,x2,args,**kwargs)numpy.multiply(x1,x2,args,**kwargs)numpt.divide(x1,x2,args,**kwargs)numpy.floor_divide(x1,x2,args,**kwargs)numpy.po

2020-10-28 17:21:16 266

原创 10numpy学习3

数组操作更改形状在对数组进行操作时,为了满足格式和计算的要求通常会改变其形状。numpy.ndarray.shape表示数组的维度,返回一个元组,这个元组的长度就是维度的数目,即 ndim 属性(秩)。【例】通过修改 shape 属性来改变数组的形状。import numpy as npx = np.array([1, 2, 9, 4, 5, 6, 7, 8])print(x.shape) # (8,)x.shape = [2, 4]print(x)# [[1 2 9 4]#

2020-10-25 21:26:15 174 1

原创 10月numpy学习2

numpy学习27索引与切片7.1整数索引7.2切片索引7.2dots索引7.4整数数组索引7.5布尔索引7索引与切片数组索引机制指的是用方括号([])加序号的形式引用单个数组元素,它的用途很多,比如抽取元素,选取数组的几个元素,甚至为其赋一个新值7.1整数索引#要获取数组的单个元素,指定元素的索引即可。x = np.array([1,2,3,4,5,6,7,8])print(x[2])x = np.array([[11,12,13,14,15], [16,17,

2020-10-22 11:55:14 97

原创 2020年10月NumPy学习

# numpy基础学习基础1.常量1.1numpy.nan1.2numpy.inf1.3numpy.pinumpy.e2数据类型2.1 常见数据类型2.2创建数据类型2.3数据类型信息3时间日期和时间增量3.1datetime64基础3.2datetime64和timedelta64运算3.3datetime64的应用基础1.常量import numpy as np#导入Numpy库1.1numpy.nannan、NaN、NAN三种方式都可以表示空值:np.nan,np.NaN,np.NAN#

2020-10-20 16:50:42 344 1

原创 零基础入门金融风控Task5 模型融合

零基础入门金融风控Task5 模型融合内容介绍模型融合是比赛后期上分的重要手段,特别是多人组队学习的比赛中,将不同队友的模型进行融合,可能会收获意想不到的效果哦,往往模型相差越大且模型表现都不错的前提下,模型融合后结果会有大幅提升,以下是模型融合的方式。平均:简单平均法加权平均法投票:简单投票法加权投票法综合:排序融合log融合stacking:构建多层模型,并利用预测结果再拟合预测。blending:选取部分数据预测训练得到预测结果作为新特征,带入

2020-09-26 15:43:24 101

原创 零基础入门金融风控的 Task4 建模调参

零基础入门金融风控的 Task4 建模调参Task4 建模与调参学习内容4.3 模型相关原理介绍4.3.1 逻辑回归模型4.3.2 决策树模型4.3.3 GBDT模型4.3.4 XGBoost模型4.3.5 LightGBM模型4.3.6 Catboost模型4.3.7 时间序列模型(选学)4.3.8 推荐教材:4.4 模型对比与性能评估4.4.1 逻辑回归4.4.2 决策树模型4.4.3 集成模型集成方法(ensemble method)4.4.4 模型评估方法4.4.5 模型评价标准4.5 代码示例4.

2020-09-24 21:15:00 129

原创 零基础入门金融风控之贷款违约Task3 特征工程

零基础入门金融风控之贷款违约Task3 特征工程零基础入门金融风控之贷款违约Task3 特征工程3.1 学习目标3.2 内容介绍3.3 代码示例3.3.1 导入包并读取数据3.3.2特征预处理缺失值填充时间格式处理对象类型特征转换到数值类别特征处理3.3.3 异常值处理检测异常的方法一:均方差检测异常的方法二:箱型图3.3.4 数据分桶3.3.5 特征交互3.3.6 特征编码labelEncode 直接放入树模型中逻辑回归等模型要单独增加的特征工程3.3.7 特征选择FilterWrapper (Rec

2020-09-21 21:42:55 203 1

原创 DW金融风控比赛项目任务二数据分析

金融风控比赛项目任务二数据分析Task2 数据分析目的:任务内容:代码导入数据分析及可视化过程需要的库读取文件变量解释查看数据每列数据类型,缺失值数量等信息缺失值的处理逻辑查看数据每列数据类型,缺失值数量等信息查看特征的数值类型有哪些,对象类型有哪些划分数值型变量中的连续变量和离散型变量数值类别型变量分析数值连续型变量分析非数值类别型变量分析变量分布可视化单一变量分布可视化根据y值不同可视化x某个特征的分布首先查看类别型变量在不同y值上的分布其次查看连续型变量在不同y值上的分布时间格式数据处理及查看掌握透视

2020-09-18 16:58:52 426

原创 DW金融风控比赛项目任务一赛题理解

DW金融风控比赛项目任务一赛题理解赛题背景赛题数据评测标准比赛经验(copy官方文档)赛题背景本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第四场 —— 零基础入门金融风控-贷款违约预测。赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题。通过这道赛题来引导大家了解金融风控中的一些业务背景,解决实际问题,帮助竞赛新人进行自我练习、自我提高。赛题链接:https://tianchi.aliyun.

2020-09-15 10:25:41 637

原创 Datawhale数据分析课程第三章建模与评估

模型搭建和评估建模导入各种库及可视化设置模型搭建二级目录三级目录经过前面的两章的知识点的学习,可以对数据的本身进行处理,比如数据本身的增删查补,还可以做必要的清洗工作。那么下面我们就要开始使用我们前面处理好的数据了。这一章我们要做的就是使用数据,我们做数据分析的目的也就是,运用我们的数据以及结合我的业务来得到某些我们需要知道的结果。那么分析的第一步就是建模,搭建一个预测模型或者其他模型;我们从这个模型的到结果之后,我们要分析我的模型是不是足够的可靠,那我就需要评估这个模型。建模处理完前面的数据我们就

2020-08-26 16:34:58 569

原创 DataWhale基于支持向量机的分类预测

基于支持向量机的分类预测SVM工作原理解决什么问题线性可分距离支撑向量标签定义目标函数求解拉格朗日乘子法支持向量机求解调参软间隔核函数实践Demo实践Step1:库函数导入Step2:构建数据集并进行模型训练构造数据集Step3:模型参数查看Step4:模型预测Step5:模型可视化支持向量机介绍线性不可分问题SVM工作原理支持向量机(Support Vector Machine,SVM)是一个非常优雅的算法,具有非常完善的数学理论,常用于数据分类,也可以用于数据的回归预测中,由于其其优美的理论保证和利

2020-08-25 17:36:31 280

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除