- 博客(18)
- 收藏
- 关注
原创 数据分割并分配新列名
在项目中遇到需要将数据或者特征中,个数不相等的数据,分割成多个列,比如如下数据(主要记录给自己,以后查询好找,各路大神勿喷):假设其col为split_feature_column = […]for col in split_feature_column: """分割数据""" split_data = data[col].str.split(',',expand=True) """转换为DataFrame格式""" split_data = pd.DataFrame(split_data)
2020-11-03 11:49:07 468
原创 Python函数随手笔记
随手笔记 记录一下自己平时遇到的一些函数,以及自己对于函数的使用。1、split( )函数 split()是通过给定分隔符,对字符串进行切片;比如给定数组a = 'A:B:C:D:E',通过a.split(':'),则我们可以得到新的数组a = ['A', 'B', 'C', 'D', 'E']。 我们看到,通过’ : '的分割,我们得到了新的字符。2、strip( ) 函数 strip()函数,是指去除字符串头尾的指定字符。比如给定数组a = ':a,b,c,d,e:',通过a.str
2020-07-24 21:55:50 196
原创 堆排序的基本思想以及python实现
堆排序\mathbf{堆排序}堆排序 堆排序:只需要一个记录大小的辅助空间,每个待排序的记录仅占有一个存储空间。 堆的定义:n个元素的序列{k1,k2,...,kn}\{k_1,k_2,...,k_n\}{k1,k2,...,kn},当且仅当满足以下关系是,称为堆。 {ki⩽k2iki⩽k2i+1\begin{cases}k_i \leqslant k_{2i}\\ k_i \l...
2020-04-03 14:00:31 399
原创 简单选择排序的基本思想以及python实现
简单选择排序\mathbf{简单选择排序}简单选择排序 简单选择排序的基本思想:从头至尾顺序扫描序列,找出最小的元素,和第一个元素进行交换,接着从剩下的元素中继续这种选择和交换,直至最终数组有序。 例题:假设给定的数组为[2,1,7,9,5,8],对其进行简单选择排序。(还是假定从左到右,从小到大,即升序排序)。 基本流程: 1)从数组中选择最小值元素,为元素1,与第一个元素交换位...
2020-03-31 23:14:04 1233
原创 二路归并排序的基本思想以及python实现
二路归并排序\mathbf{二路归并排序}二路归并排序 二路归并排序的主要思想:核心是分治,就是把一个复杂的问题分成两个或多个相同或相似的子问题,然后把子问题分成更小的子问题,直到子问题可以简单的直接求解,最原问题的解就是子问题解的合并。 例题:假设给定的数组为[2,1,7,9,5,8],对其进行二路归并排序。(还是假定从左到右,从小到大,即升序排序)。 基本流程: 1)首先将数组...
2020-03-31 22:49:43 1062
原创 快速排序的基本思想以及python实现
本文主要讲解快速排序的主要思想以及时间复杂度和空间复杂度,以及代码的实现(python版本)。 快速排序\mathbf{快速排序}快速排序 基本思想:通过一趟快速排序,将待排序的元素分割成独立的两部分,其中一部分的元素均比基准小,另一部分的元素均比基准大,然后分别对这两部分进行排序。直到最终序列有序。 例题:假设给定的数组为[2,1,7,9,5,8],,对其进行快速排序。(还是假定从左...
2020-03-31 20:48:50 234
原创 插入排序的基本思想以及python实现
本文主要讲解插入排序的基本思想,以及其时间复杂度和空间复杂度,以及代码的实现(python版本)。 基本思想: 每一次我们将未排好序的元素插入到已排序的元素中。 例题:比如给定我们的元组为[2,1,7,9,5,8],对其进行插入排序。(还是假设升序,即从左到右,从小到大。) 跟冒泡排序的对比,冒泡排序是每次将最大值或者最小值,冒到数组的尾部,而插入排序则是每次将最大值或者最小值,插...
2020-03-31 17:16:53 207
原创 冒泡排序的基本思想以及python实现
本文主要讲解一下基础的冒泡排序算法的基本思想以及时间复杂度和空间复杂度,以及代码的实现(python版本)。 一、冒泡排序 冒泡排序的主要思想:冒泡排序主要是将杂乱无章的数组,通过冒泡每次将数组中最大的或者最小的值,冒到数组的尾部。 例题:比如给定数组[2,1,7,9,5,8],要求按照从左到右,从小到大的顺序进行排序。 基本流程: 1)首先设置一个指针指向第一个元素,将第一个...
2020-03-31 13:35:44 597
原创 github如何删除仓库和文件
之前的博客,更新了如何上传到github仓库,本文讲述如何删除仓库(repository)和删除仓库中的文件 一、删除仓库 1)点击github自己的头像,点击your repositories,进入自己想要删除的仓库。 然后点击最右边的Settings 在网页最底部,有个Danger Zone,点击删除仓库即可! 二、删除仓库中的文件 跟上传文件时一样,...
2020-03-18 11:42:44 1692
原创 K-means聚类算法
k-means算法 一、算法概述 k-means中的k指的是数据聚成多少个簇,而means指的是根据簇的均值来确定簇中心,从而计算每个实例到每个簇的距离。 k-means聚类算法是一种无监督聚类算法,之前我们讲过KNN(K最近算法),是一种有监督的分类算法,其实本质上,KNN和K-means聚类算法,大同小异,与之不一样的地方在于,KNN是计算该实例到每个实例的距离,最后得出其自己的类...
2020-03-12 19:40:37 1480
原创 github上传本地代码
在这里我们使用Git进行代码上传。 首先需要下载Git这个软件,软件地址:https://git-for-windows.github.io/,接下来一路安装即可。 一、github的仓库准备 1)进入自己的github首页,点击如下所示的绿色New按钮; 2)出现如下界面,填写相应信息即可; 其中: Repository name: 仓库名称 Descri...
2020-03-08 21:31:32 168
原创 github为什么使用邮箱邀请合作者失败?
在我们使用github邀请合作者时,发现输入邮箱地址显示不存在,但是输入用户名却可以邀请成功。 以下设置是被邀请者需要设置的:(即你邀请谁,谁来设置) 一、点击自己的头像,进入settings界面; 二、如果该页面如下所示,则进入emails进行设置; 三、找到Emails下的keep my email addresses private,并将其前边的对勾去掉,再返回P...
2020-03-03 18:11:29 3068 1
原创 github如何邀请合作者参与自己的项目?
现在很多程序员都喜欢在github上维护自己的代码,那么如何邀请合作者一起参与维护呢? 一、点击进入我们自己的Repositories,可以看到有setting标签; 二、点击进入setting设置,在其最左边,有个Manage Access 三、点击Manage Access后,在最下边出现如下界面: 四、点击Invite a collaborator输入被邀请人信...
2020-03-03 17:48:36 3157
原创 windows10+anaconda下安装xgboost
\quad新手安装xgboost,之前安装的时候一直出现问题,在此整理一下安装的步骤,省的来回折腾半天还安装失败。\quad 1)我们首先要确认自己的python版本号,这个在anaconda prompt里边可以查看;\quad 2)到https://www.lfd.uci.edu/~gohlke/pythonlibs/这个网站中按ctrl+f输入xgb找到自己python版本号对应的xgb...
2020-02-21 12:33:11 328
原创 Python中axis=0和axis=1的理解
\quad在看数据分析的时候,发现一个问题,之前对于axis的理解是0行1列。先看下面两个例子吧。\quad从上述代码中,我们可以看到,data.mean(axis=1)是将data数据的行进行了求均值,而data.drop(“two”,axis=1)是按列进行了删除,那么到底axis=0和axis=1,是如何定义的呢?\quad最简单的解释就是axis=0表示跨行,而axis=1表示跨...
2020-02-20 16:25:38 4801
转载 比较牛的竞赛总结和竞赛博客
保存一下竞赛大佬的网址。\quad 1. 一个master的主页:https://lxmly.github.io/archives/ (数据分布、数据特点、后处理上,还差的多得多,不是简单的套路, 对数据的异常现象保持敏感)\quad 2.砍手豪的一些非常好的文章,大佬真的是在不断分析过往赛题,积攒经验和思考:https://www.zhihu.com/people/kan-shou-...
2020-02-19 17:21:14 120
原创 KNN(K Near Neighbor)最近邻算法
KNN算法一、概念KNN(K Near Neighbor):k个最近的邻居,即每个样本都可以用它最接近的k个邻居来代表。用我们的一句古语来说就是:物以类聚,人以群分。假如一个人的通讯录里有马云、王健林、李嘉诚等,那么这个人肯定也是这个圈子里的人;再假如,一个爱好游戏的人的朋友圈,应该大部分都是玩游戏的;爱喝酒的人的朋友圈,应该都是爱喝酒的;有句话说得好,臭味相投。最近邻算法是一种分类算法,...
2020-02-18 20:05:03 802
原创 感知机模型
一、什么是感知机模型?感知机是线性分类的二分类模型,输入为实例的特征向量,输出为实例的类别,分别用1和-1表示。感知机将输入空间(特征空间)中的实例划分为正负两类分离的超平面,旨在求出将训练集进行线性划分的超平面,为此,导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得最优解。感知机是神经网络和支持向量机的基础。二、感知机模型感知机的函数公式为:f(x)=sign(w⋅x+b...
2020-02-18 20:03:30 368
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人