python
文章平均质量分 94
数分虐我千百遍
这个作者很懒,什么都没留下…
展开
-
数据分析终回-数据建模与评估
数据建模与评估本文记录2022年3月组队学习-动手学数据分析教程知识点,采用kaggle上泰坦尼克的任务,实战数据分析全流程。教程内容开源地址:github: https://github.com/datawhalechina/hands-on-data-analysisgitee:https://gitee.com/datawhalechina/hands-on-data-analysis前面我们已经做足了数据的准备,研究数据本身的特征,现在我们要进一步对数据进行挖掘,找到背后的隐藏信息以及数据原创 2022-03-23 21:28:10 · 1053 阅读 · 0 评论 -
数据分析第四回-数据可视化
数据可视化本文记录2022年3月组队学习-动手学数据分析教程知识点,采用kaggle上泰坦尼克的任务,实战数据分析全流程。教程内容开源地址:github: https://github.com/datawhalechina/hands-on-data-analysisgitee:https://gitee.com/datawhalechina/hands-on-data-analysis接下来要重点研究一下数据可视化。本章我们着重研究一下matplotlib绘图库。Matplotlib可以说是py原创 2022-03-21 21:33:26 · 1159 阅读 · 0 评论 -
数据分析第三回-数据重构
数据重构本文记录2022年3月组队学习-动手学数据分析教程知识点,采用kaggle上泰坦尼克的任务,实战数据分析全流程。教程内容开源地址:github: https://github.com/datawhalechina/hands-on-data-analysisgitee:https://gitee.com/datawhalechina/hands-on-data-analysis接下来要重点研究一下数据重构。本章我们着重研究一下SAC过程(split-apply-combine),对数据基于原创 2022-03-19 16:56:39 · 2086 阅读 · 0 评论 -
数据分析第二回-数据清洗与特征处理
数据清洗与特征处理本文记录2022年3月组队学习-动手学数据分析教程知识点,采用kaggle上泰坦尼克的任务,实战数据分析全流程。教程内容开源地址:github: https://github.com/datawhalechina/hands-on-data-analysisgitee:https://gitee.com/datawhalechina/hands-on-data-analysis接下来要重点研究一下数据清洗,一般我们拿到数据的时候,有很多错误的情况。所谓的错误,就是数据中有缺失值,原创 2022-03-17 21:22:51 · 1214 阅读 · 0 评论 -
数据分析初回-探索性数据分析
探索性数据分析本文记录2022年3月组队学习-动手学数据分析教程知识点,采用kaggle上泰坦尼克的任务,实战数据分析全流程。教程内容开源地址:github: https://github.com/datawhalechina/hands-on-data-analysisgitee:https://gitee.com/datawhalechina/hands-on-data-analysis1 第一章:数据载入及初步观察1.1 任务一: 利用pandas进行数据导入数据集下载 https://原创 2022-03-15 21:06:27 · 1650 阅读 · 0 评论 -
朴素贝叶斯(上)
朴素贝叶斯算法是有监督的学习算法,解决的是分类问题,如客户是否流失、是否值得投资、信用等级评定等多分类问题。该算法的优点在于简单易懂、学习效率高、在某些领域的分类问题中能够与决策树、神经网络相媲美。但由于该算法以自变量之间的独立(条件特征独立)性和连续变量的正态性假设为前提,就会导致算法精度在某种程度上受影响朴素贝叶斯理论假设现在我们有一个数据集,它由两类数据组成,数据分布如下图所示:我们现在用p1(x,y)表示数据点(x,y)属于类别1(图中红色圆点表示的类别)的概率,用p2(x,y)表示数.原创 2020-11-08 09:58:59 · 334 阅读 · 1 评论 -
决策树
文章目录引入决策树工作原理ID3算法(判断要不要去打篮球)?C4.5 算法Cart算法ID3算法Python实现(基于信贷数据集)基于Sklearn库的决策树模型(Titanic乘客生存预测)基于cart算法的分类树基于cart算法的回归树引入想象一下一个女孩的妈妈给她介绍男朋友的场景:女儿:长的帅不帅?妈妈:挺帅的。女儿:有没有房子?妈妈:在老家有一个。女儿:收入高不高?妈妈:还不错,年薪百万。女儿:做什么工作的?妈妈:IT 男,互联网公司做数据挖掘的。女儿:好,那我见见。在现实生原创 2020-10-27 11:02:00 · 805 阅读 · 0 评论 -
folium进阶内容介绍
文章目录一、简言二、处理GeoJSON和TopoJSON数据三、Choropleth分级着色图一、简言 上一篇中我们学习了folium的基础内容,从创建folium地图开始,通过主要参数修饰地图,尝试绘制Marker来标记特定地点等,实际上folium在地理信息可视化过程中重点在于绘制图像的高度可定制化。二、处理GeoJSON和TopoJSON数据GeoJSON数据GeoJSON是语法规则符合JSON文件的,专用于表示地理信息的一种JSON文件,其在JSON语法的基础上,内部又有着一套固定的原创 2020-09-27 22:15:56 · 3839 阅读 · 3 评论 -
folium基础内容介绍
folium基础内容介绍1. 简介 folium是js上著名的地理信息可视化库leafet.js为Python提供的接口,通过它,我们可以通过在Python端编写代码操纵数据,来调用leaflet的相关功能,基于内建的osm或自行获取的osm资源和地图原件进行地理信息内容的可视化,以及制作优美的可交互地图,是通过不断添加图层元素来定义一个Map对象,最后以几种方式将Map对象展现出来。 而在Map对象的生成形式上,可以在定义所有的图层内容之后,将其保存为html文件在浏览器中独立显示,也可以基于j原创 2020-09-19 17:36:15 · 8547 阅读 · 2 评论 -
Pandas基础: 时序数据
文章目录Task04: 时序数据二、理解点三、 问题与作业最近考试周有点没处理好时间,考完试填补叭.1. 问题【问题一】 如何对date_range进行批量加帧操作或对某一时间段加大时间戳密度?【问题二】 如何批量增加TimeStamp的精度?【问题三】 对于超出处理时间的时间点,是否真的完全没有处理方法?【问题四】 给定一组非连续的日期,怎么快速找出位于其最大日期和最小日期之间,且没有出现在该组日期中的日期?【练习一】 现有一份关于某超市牛奶销售额的时间序列数据,请完成下列问题:(a)销售额出现最大值的是原创 2020-06-29 21:35:30 · 971 阅读 · 0 评论 -
Pandas基础学习:分类数据
文章目录一、 Task03: 分类数据二、 理解点三、 问题与作业1. 问题【问题一】 如何使用union_categoricals方法?它的作用是什么?【问题二】 利用concat方法将两个序列纵向拼接,它的结果一定是分类变量吗?什么情况下不是?【问题三】 当使用groupby方法或者value_counts方法时,分类变量的统计结果和普通变量有什么区别?【问题四】 下面的代码说明了Series创建分类变量的什么“缺陷”?如何避免?(提示:使用Series中的copy参数)【练习一】 现继续使用第四章中的原创 2020-06-27 21:29:12 · 2255 阅读 · 0 评论 -
Pandas基础学习: 处理文本数据
文章目录一、Task02: 文本数据二、理解点三、问题与作业1. 问题【问题一】 str对象方法和df/Series对象方法有什么区别?【问题二】 给出一列string类型,如何判断单元格是否是数值型数据?【问题三】 rsplit方法的作用是什么?它在什么场合下适用?【问题四】 在本章的第二到第四节分别介绍了字符串类型的5类操作,请思考它们各自应用于什么场景?2. 练习【练习一】 现有一份关于字符串的数据集,请解决以下问题:(a)现对字符串编码存储人员信息(在编号后添加ID列),使用如下格式:“×××(名字原创 2020-06-26 22:51:55 · 2198 阅读 · 0 评论 -
Pandas基础学习:处理缺失数据
文章目录一、Task01:缺失数据二、理解点三、问题与练习1. 问题【问题一】 如何删除缺失值占比超过25%的列?【问题二】 什么是Nullable类型?请谈谈为什么要引入这个设计?【问题三】 对于一份有缺失值的数据,可以采取哪些策略或方法深化对它的了解?2. 练习【练习一】现有一份虚拟数据集,列类型分别为string/浮点/整型,请解决如下问题:(a)请以列类型读入数据,并选出C为缺失值的行。(b)现需要将A中的部分单元转为缺失值,单元格中的最小转换概率为25%,且概率大小与所在行B列单元的值成正比。【练原创 2020-06-22 21:21:00 · 1508 阅读 · 0 评论 -
第5章 合并
第5章 合并本次跟随Datawhale组队学习Pandas基础,希望能有所收获。Datawhale是一个很好的开源组织,会组织很多免费的知识学习。教程:地址一、思维导图二、问题与练习1. 问题【问题一】 请思考什么是append/assign/combine/update/concat/merge/join各自最适合使用的场景,并举出相应的例子。append: 通过dict Se...原创 2020-04-30 20:22:02 · 546 阅读 · 0 评论 -
第4章 变形
第4章 变形文章目录第4章 变形一、内容大概二、透视表1. pivot一般状态下,数据在DataFrame会以压缩(stacked)状态存放,例如上面的Gender,两个类别被叠在一列中,pivot函数可将某一列作为新的cols:然而pivot函数具有很强的局限性,除了功能上较少之外,还不允许index中出现重复的行列索引对(pair),例如下面的语句就会报错:因此,更多的时候会选择使用强大的p...原创 2020-04-28 20:40:02 · 865 阅读 · 0 评论 -
第3章 分组
第3章 分组import pandas as pdimport numpy as npdf = pd.DataFrame(np.array([[1, 1], [2, 10], [3, 100], [4, 100]]), columns=['a', 'b'])dfdf.quantile(.1)a 1.3b 3.7Name: 0.1, ...原创 2020-04-26 20:53:39 · 248 阅读 · 0 评论 -
第2章 索引
第2章 索引文章目录第2章 索引大致内容一、单级索引1. loc方法、iloc方法、[]操作符最常用的索引方法可能就是这三类,其中iloc表示位置索引,loc表示标签索引,[]也具有很大的便利性,各有特点(a)loc方法(注意:所有在loc中使用的切片全部包含右端点!)① 单行索引:② 多行索引:③ 单列索引:④ 多列索引:⑤ 联合索引:⑥ 函数式索引:⑦ 布尔索引(将重点在第2节介绍)小节:本...原创 2020-04-22 23:02:35 · 729 阅读 · 0 评论 -
机器学习 树回归
树回归分类回归树(Classification And Regression Trees,CART)是一种构造树的监督学习方法。和ID3决策树作比较:1. ID3每次直接用最佳特征分割数据,即如果当前特征有4个可能值,那么数据将被分成4份,处理的是标称型数据,不能直接处理连续型数据。CART则利用二元切分来处理连续型变量,每次会找一个最佳特征的阈值,把数据集分成两部分,也就是左子树和右子树。...原创 2019-12-21 22:14:55 · 274 阅读 · 0 评论 -
机器学习 回归问题(线性回归 岭回归 逐步回归)
一.线性回归线性回归就是将输入项分别乘以一些常量,在将结果加起来得到输出。 假定输入数据存放在矩阵 x 中,而回归系数存放在向量 w 中。 那么预测结果可以通过Y=X的转置*W得出。所以我们求解线性回归模型的核心就在于求解w,如何求呢?首先,我们一定是希望预测出来的值和实际值之间的误差越小越好,所以我们评判w好坏,就可以采用实际值与真实值之差表示,但是这个差有正有负,为了避免正负相互抵消的情况,...原创 2019-12-21 17:39:27 · 1260 阅读 · 0 评论 -
机器学习 AdaBoost算法
#!/usr/bin/env python# encoding: utf-8from __future__ import print_functionfrom numpy import *import matplotlib.pyplot as pltdef loadSimData(): ''' 加载数据集 :return: dataM...原创 2019-12-14 11:36:06 · 367 阅读 · 0 评论