Python
我爱玩泥巴
这个作者很懒,什么都没留下…
展开
-
怎么更改anaconda的存储路径
1、找到Jupyter快捷方式,进入属性,修改起始位置项;2、创建配置文件,修改配置信息执行 jupyter notebook --generate-config 命令,执行结果如下图所示:7c82eef5ad925c9972850023242b174.png3、进入上图所示文件夹,修改配置文件:The directory to use for notebooks and kernels.#c.NotebookApp.notebook_dir = ‘’修改为去掉 #注释并设置目录位置The原创 2021-11-04 15:27:22 · 6155 阅读 · 0 评论 -
Pandas 第8章 分类数据
Categoricals 是 pandas 的一种数据类型,对应着被统计的变量。Categoricals 是由固定的且有限数量的变量组成的。比如:性别、社会阶层、血型、国籍、观察时段、赞美程度等等。与其它被统计的变量相比,categorical 类型的数据可以具有特定的顺序——比如:按程度来设定,“强烈同意”与“同意”,“首次观察”与“二次观察”,但是不能做按数值来进行排序操作(比如:sort_by 之类的,换句话说,categorical 的顺序是创建时手工设定的,是静态的)类型数据的每一个元素的原创 2020-06-27 22:32:02 · 537 阅读 · 1 评论 -
Pandas 第7章 文本数据
目录string 类型的性值拆分和拼接替换子串匹配与提取常用字符串方法问题与练习string 类型的性值 string 与object区别 字符存取方法,string返回相应数据的Nullable类型,object会因缺失值存在而改变返回类型; 某些Series方法不能再string上使用,Series.str.decode() 因为存储的是字符串而不是字节 string类型在缺失值存储或运算时,类型广播时pd.NAN,而不是np.nan stri.原创 2020-06-26 23:16:59 · 223 阅读 · 0 评论 -
Pandas-第六章缺失数据处理
目录一、缺失预测及其类型二、缺失数据的运算与分组三、填充与剔除四、插值线性插值高级插值方法interpolate中的限制参数一、缺失预测及其类型了解缺失值信息 df.isna() #或者df.列名.isna() df.info() df.notna()# 非空信息 df[~df.列名.isna()] 对空取反操作,就是找非空 求缺失个数 df.isna().sum() 通过布尔值选择缺失值所在行 df[df.列名.isna()]...原创 2020-06-23 15:04:02 · 2510 阅读 · 0 评论 -
Pandas 数据结构-Series
作为自己学习的笔记,加油!import pandas as pd Series是一种一维的数组型对象。包含两个属性Series.values 和Series.index1.1创建Series from pandas import Series obj=Series([4,5,6,7]) obj 0 4 1 5 2 ...原创 2019-10-30 21:52:34 · 152 阅读 · 0 评论 -
Task5 模型融合
Task5 模型融合学习目标内容介绍学习目标将之前建模调参的结果进行模型融合。 尝试多种融合方案,提交融合结果并打卡。(模型融合一般用于A榜比赛的尾声和B榜比赛的全程)内容介绍模型融合是比赛后期上分的重要手段,特别是多人组队学习的比赛中,将不同队友的模型进行融合,可能会收获意想不到的效果哦,往往模型相差越大且模型表现都不错的前提下,模型融合后结果会有大幅提升,以下是模型融合的方式。平均:简单平均法简单加权平均,结果直接融合 求多个预测结果的平均值。pre1-pren分别是n组模型预测出来的转载 2020-09-28 09:37:46 · 89 阅读 · 0 评论 -
Task4建模调参
Task4 建模与调参 学习目标内容介绍逻辑回归的优缺点树模型集成模型模型评估方法模型评价标准学习目标学习在金融分控领域常用的机器学习模型学习机器学习模型的建模过程与调参流程完成相应学习打卡任务内容介绍逻辑回归的优缺点优点训练速度较快,分类的时候,计算量仅仅只和特征的数目相关;简单易理解,模型的可解释性非常好,从特征的权重可以看到不同的特征对最后结果的影响;适合二分类问题,不需要缩放输入特征;内存资源占用小,只需要存储各个维度的特征值;缺点逻辑回归需要预先处理缺转载 2020-09-24 22:44:10 · 182 阅读 · 0 评论 -
Task 3 数据特征
学习目标学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法学习特征交互、编码、选择的相应方法完成相应学习打卡任务,两个选做的作业不做强制性要求,供学有余力同学自己探索学习内容数据预处理缺失值的填充时间格式处理对象类型特征转换到数值异常值处理基于3segama原则基于箱型图数据分箱固定宽度分箱分位数分箱离散数值型数据分箱连续数值型数据分箱卡方分箱(选做作业)特征交互特征和特征之间组合特征和特征之间衍生其他特征衍生的尝试(转载 2020-09-22 08:05:02 · 322 阅读 · 0 评论 -
Task2 数据分析
Task 2 数据分析目的学习目标内容介绍代码案例导入库读取文件拓展总体了解查看特征的数值类型有哪些,对象类型有哪些数值型变量分析,数值型肯定是包括连续型变量和离散型变量的,找出来目的1.EDA价值主要在于熟悉了解整个数据集的基本情况(缺失值,异常值),对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模.2.了解变量间的相互关系、变量与预测值之间的存在关系。3.为特征工程做准备学习目标内容介绍数据总体了解:读取数据集并了解数据集大小,原始特征维度;通过info熟悉数据类型;转载 2020-09-18 22:36:41 · 198 阅读 · 0 评论 -
零基础入门金融风控之贷款违约预测挑战赛-Task1 赛题理解
零基础入门金融风控之贷款违约预测挑战赛-Task1 赛题理解[Task1 赛题理解](https://editor.csdn.net/md?not_checkout=1&articleId=108587862)Task2Task3Task 4赛题概况数据概况预测指标分析赛题经验总结拓展知识——评分卡Task1 赛题理解Task2Task3Task 4赛题概况比赛要求参赛选手根据给定的数据集,建立模型,预测金融风险。赛题以预测金融风险为任务,数据集报名后可见并可下载,该数据来自某信贷平台原创 2020-09-14 22:31:30 · 482 阅读 · 0 评论 -
数据分析-任务0
任务0学习目标数据分析数据分析介绍数据统计分析关键指标集中趋势均值中位数众数离散程度数值型数据顺序数据分类数据相对离散程度分布形态数据分析与数据类型数据分析软件数据分析与可视化方法数据分析流程描述性统计分析探索型数据分析验证型数据分析学习目标对数据分析有有一点感性的认知,了解数据分析的用途;对数据分析中数据处理和可视化软件有初步了解;理解数据分析的流程和步骤;数据分析数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的原创 2020-09-07 23:16:06 · 2363 阅读 · 0 评论 -
动手数据分析-1
目录os模块常用方法pandans 读取文件os模块常用方法摘自 :https://www.jianshu.com/p/eb3d65879a90os模块的主要功能:系统相关、目录及文件操作、执行命令和管理进程在使用os模块的时候,如果出现了问题,会抛出OSError异常,表明无效的路径名或文件名,或者路径名(文件名)无法访问,或者当前操作系统不支持该操作。import osos.chdir('d:\\l')FileNotFoundError ...原创 2020-08-17 22:48:41 · 230 阅读 · 0 评论 -
模型搭建与评估
这里写目录标题1、模型搭建-建模1.1 导包1.2 读入数据集1.3 模型搭建1.3.1 切割训练集和测试集1.4 输出模型预测结果2、模型搭建-评估1、模型搭建-建模我们拥有的泰坦尼克号的数据集,那么我们这次的目的就是,完成泰坦尼克号存活预测这个任务。1.1 导包import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsfrom IPython.display impo原创 2020-08-27 15:31:52 · 982 阅读 · 1 评论 -
绘图与可视化入手教程
绘图与可视化入手教程Matplotlib创建画布与创建子图创建画布plt.figure()---在plt中绘制一张图片plt.subplot--创建单个子图plt.subplots--创建多个子图figure().add_subplot方法----给figure新增子图画布内容plt.subplots()画布fig.add_subplot()颜色、标记、线类型刻度、标尺和图例不同类型的图散点图折线图直方图条形统计图箱型图饼图雷达图SeabornMatplotlib导入包import matplotli原创 2020-08-24 23:11:58 · 494 阅读 · 0 评论 -
缺失值和重复值的处理
一、缺失值处理:1、缺失值产生的原因缺失值的产生的原因多种多样,主要分为机械原因和人为原因。机械原因是由于机械原因导致的数据收集或保存的失败造成的数据缺失,比如数据存储的失败,存储器损坏,机械故障导致某段时间数据未能收集(对于定时数据采集而言)。人为原因是由于人的主观失误、历史局限或有意隐瞒造成的数据缺失,比如,在市场调查中被访人拒绝透露相关问题的答案,或者回答的问题是无效的,数据录入人员失误漏录了数据。2、缺失值的类型缺失值从缺失的分布来讲可以分为完全随机缺失,随机缺失和完全非随机缺失。完转载 2020-08-21 22:49:05 · 2828 阅读 · 0 评论 -
文件与文件系统
1. 文件与文件系统 打开文件 open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)file: 必需,文件路径(相对或者绝对路径)。 mode: 可选,文件打开模式 buffering: 设置缓冲 encoding: 一般使用utf8 errors: 报错级别 newline: 区分换行符打开模式 执行操作 'r'转载 2020-08-08 23:27:11 · 121 阅读 · 0 评论 -
day8-模块
1. 什么是模块Python 模块(Module),是一个 Python 文件,以 .py 结尾,包含了 Python 对象定义和Python语句。容器 -> 数据的封装 函数 -> 语句的封装 类 -> 方法和属性的封装 模块 -> 程序文件2. 命名空间命名空间因为对象的不同,也有所区别,可以分为如下几种:内置命名空间(Built-in Namespaces):Python 运行起来,它们就存在了。内置函数的命名空间都属于内置命名空间,所以,我们可以...原创 2020-08-07 22:34:47 · 165 阅读 · 0 评论 -
day7-类与对象
类与对象1. 对象 = 属性 + 方法对象是类的实例。换句话说,类主要定义对象的结构,然后我们以类为模板创建对象。类不但包含方法定义,而且还包含所有实例共享的数据。 封装:信息隐蔽技术 我们可以使用关键字class定义 Python 类,关键字后面紧跟类的名称、分号和类的实现。class Turtle: # Python中的类名约定以大写字母开头 """关于类的一个简单例子""" # 属性 color = 'green' weight = 10..原创 2020-08-05 22:09:11 · 294 阅读 · 0 评论 -
day6-函数与Lambda表达式
一、函数python 把函数当成对象,可以从另外一个函数中返回出来去构建高阶函数;参数是函数 返回值是函数 函数的定义 函数以def关键词开头,后接函数名和圆括号()。 函数执行的代码以冒号起始,并且缩进。 return [表达式] 结束函数,选择性地返回一个值给调用方。不带表达式的return相当于返回None。 def functionname(parameters): "函数_文档字符串" function_suite return [ex原创 2020-08-02 20:03:13 · 119 阅读 · 0 评论 -
day5-字典-集合-序列
目录字典集合序列1、字典1、1 可变类型与不可变类型序列是以连续的整数为索引,与此不同的是,字典以"关键字"为索引,关键字可以是任意不可变类型,通常用字符串或数值。 字典是 Python 唯一的一个 映射类型,字符串、元组、列表属于序列类型。判断数据x是否可变得方法:麻烦方法:用id(X)函数,对 X 进行某种操作,比较操作前后的id,如果不一样,则X不可变,如果一样,则X可变。 便捷方法:用hash(X),只要不报错,证明X可被哈希,即不可变,反过来不...原创 2020-07-31 22:14:23 · 196 阅读 · 0 评论 -
day4-列表-元组-字符串
目录数据结构1、列表2、元组3、字符串4、字典5、集合简单数据类型整型<class 'int'> 浮点型<class 'float'> 布尔型<class 'bool'>容器数据类型(容器是一种把多个元素组织在一起的数据结构)列表<class 'list'> 元组<class 'tuple'> 字典<class 'dict'> 集合<class 'set'> 字符串<c原创 2020-07-28 22:14:41 · 349 阅读 · 0 评论 -
day3-异常处理
异常就是运行期检测到的错误。计算机语言针对可能出现的错误定义了异常类型,某种错误引发对应的异常时,异常处理程序将被启动,从而恢复程序的正常运行。1、Python 标准异常总结BaseException:所有异常的基类 Exception:常规异常的基类 StandardError:所有的内建标准异常的基类 ArithmeticError:所有数值计算异常的基类 FloatingPointError:浮点计算异常 OverflowError:数值运算超出最大限制 ZeroDiv..原创 2020-07-25 22:51:38 · 281 阅读 · 0 评论 -
day2 条件语句
目录一、条件语句ifif-elseif - elif - elseassert二、循环语句whilewhile-elseforfor-elserange()enumerate()函数break 语句continue()pass推导式一、条件语句1、ifif expression: expr_true_suiteif 语句的expre_true_suite代码只有当表达式expression结果为真时执行,...原创 2020-07-23 22:28:15 · 144 阅读 · 0 评论 -
day1 变量、运算符与数据类型及位运算
目录变量、运算符与数据类型1、注释2、运算符3、变量和赋值4、数据类型与转换5、print() 函数原创 2020-07-22 22:05:41 · 325 阅读 · 0 评论 -
Python 变量类型
Python 变量类型变量是存储在内存中的值,也就是说创建变量时会在内存中开辟一个空间。 基于变量的数据类型,解释器会分配指定内存,并决定什么数据可以被存储在内存中。 变量可以指定不同的数据类型。变量赋值Python中的变量赋值不需要类型声明。 每个变量在内存中创建,都包括变量的标识,名称和数据这些信息。 每个变量在使用前必须赋值,变量赋值以后该变量才会被创建。 等号用来给变量赋值。 等号左边时一个变量名,右边是存储在变量中的值。counter = 100 .转载 2020-06-28 17:15:37 · 247 阅读 · 0 评论 -
FutureWarning: Conversion of the second argument of issubdtype from `float` to `np.floating` is depr
FutureWarning: Conversion of the second argument of issubdtype from `float` to `np.floating` is deprecated. In future, it will be treated as `np.float64 == np.dtype(float).type`. from ._conv import re...原创 2019-01-03 10:27:48 · 375 阅读 · 0 评论