![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
文章平均质量分 92
黄水生
我比以前更专注?
展开
-
动手学数据分析-task05-模型建立和评估
一、模型搭建和评估 – 建模通过这几天的学习,我已经掌握了机器学习中占据大部分工作量的特征工程部分的工作内容,掌握好了这部分工作后,下面我就可以开始利用广大开源算法库来进行搭建模型,分析数据了,而算法库自然而然要想到目前最流行的scikit-learn.这个库几乎包含所有主流的机器学习算法模型,各个模型的使用教程也十分方便,话不多说,直接上图!本次学习任务:通过之前的泰坦尼克号数据集,设计模型,完成泰坦尼克号存活预测任务。1.1 加载库和数据集import pandas as pdimport原创 2021-07-21 23:47:00 · 918 阅读 · 4 评论 -
动手学数据分析--task04---pandas数据可视化
数据可视化是数据分析中非常重要的一环,掌握了可视化技巧,可以让我们在数据分析过程中,发现更多的细节,数据之间透露的逻辑关系,也可以让我们的数据分析报告更加生动,有说服力,因此掌握数据可视化,可以说是数据分析工程师必备的技能。【思考】最基本的可视化图案有哪些?分别适用于那些场景?(比如折线图适合可视化某个属性值随时间变化的走势)line plot, 折线图适合可视化某个属性值随时间变化的走势bar plot, 水平柱状图或垂直柱状图,参数stacked=True,可以设置叠状柱形图,是最常见的可视化表原创 2021-07-18 18:09:52 · 284 阅读 · 3 评论 -
动手数据分析-task3-数据重构
本节数据重构内容有两部分,因为误解了学习安排,数据重构1的内容我已写入任务2中数据重构是一项非常重要的数据分析步骤,当我们把手头上的数据清洗完成后,通过数据重构的方法对现有的数据特征进行组合,可视化化显示,可以分析出许多深层次的数据信息。pandas中数据重构的方法主要有groupby为主,通过与apply、agg、transform等方法组合,可以实现很多中数据重构应用,其中apply方法没有agg和transform方法快。参考:Pandas教程 | 超好用的Groupby用法详解pandas.D原创 2021-07-17 19:17:34 · 228 阅读 · 2 评论 -
动手学数据分析----task2-------数据清洗及特征处理
本节主要学习内容为:数据清洗及特征处理。数据在收集的过程中,数据收集人员往往只是负责把数据收集起来,对数据内容遗漏,标签错误的问题往往不会注意,所以数据分析人员拿到数据后,通过数据统计、可视化、数据清洗等手段把遗漏、错误、重复等数据问题解决掉,才能进行下一步分析工作。# 加载所需要的库和数据import numpy as npimport pandas as pddf = pd.read_csv('./data/train.csv')一、 数据清洗及特征处理1.1 缺失值观察与处理1.1.原创 2021-07-15 23:08:05 · 255 阅读 · 0 评论 -
动手学数据分析(Pandas)-任务1:数据加载及探索性数据分析
数据加载及探索性数据分析一、载入数据1.1 导入库和数据文件1.2 分块读取(每1000行为一个数据模块)1.3 将修改表头二、初步观察2.1 查看数据的基本信息2.2 观察表格前15行后10行的数据2.3 判断数据是否为空三、保存数据四、知道你的数据叫什么五、筛选的逻辑六、了解你的数据吗?一、载入数据1.1 导入库和数据文件import numpy as npimport pandas as pdimport os导入数据文件的方法一般分为两种:(1) 使用相对路径载入数据train =原创 2021-07-13 18:14:16 · 238 阅读 · 0 评论