自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 资源 (3)
  • 收藏
  • 关注

原创 决策树算法实现(ID3分类树)

此处为ID3决策树,C4.5和cart决策树只要把对比的量更改即可import numpy as npimport pandas as pdfrom pandas import DataFrame, Seriesdata = {'no surfacing': [1, 1, 1, 0, 0], 'flippers': [1, 1, 0, 1, 1], 'fi...

2019-07-30 09:47:16 592

原创 泰坦尼克号生存预测 数据分析+挖掘建模

数据集来源:Kaggle https://www.kaggle.com/vikichocolate/titanic-machine-learning-from-disaster数据集各字段的含义PassengerId 乘客编号Survived 是否幸存Pclass 船票等级Name 乘客姓名Sex 乘客性别SibSp 亲戚数量(兄妹、配偶数)Parch 亲戚数量(父母、子女数)T...

2019-07-27 12:16:50 4665

原创 特征工程_note

首先明确概念:用来训练模型的数据集越大,数据质量越好,数据模型的复杂度就越低如果特征来自于不同的文件、数据库表、csv等,就要把不同地方的数据进行规整,统一存储在一个方便以后使用的地方数据清洗数据样本抽样异常值、空值处理数据样本抽样要注意:抽样要具有代表性:样本各个特征的比例要尽量与整体的比例保持一致样本比例要平衡以及样本不平衡时要如何处理尽量考虑使用全部的数据异常值、空值(Na...

2019-07-23 10:47:24 192

原创 狭义数据分析3

交叉分析分析属性和属性间的关系,交叉分析的方法比较多,如可以任意取两列,用假设检验的方法,判断他们之间是否有联系,也可以直接以一个或几个属性为行,一个或几个属性为列,做成一张透视表,通过观察这张新生成的表的性质,可以更直观的分析两个属性或几个属性之间的关系import numpy as npimport pandas as pdimport scipy.stats as ssimport...

2019-07-22 00:19:41 625

原创 狭义数据分析2

多因子分析与复合分析探索属性和属性之间的联系,分析属性和属性之间联系的分析方法假设检验根据一定的假设条件,从样本推断总体,或者推断样本与样本之间关系。作出一个假设,然后根据数据,或者根据已知的分布性质来推断这个假设成立的概率有多大方法:建立原假设H0,H0的反命题H1(备择假设)在假设检验中,常常把这个假设和一个已知的分布关联起来,这样原假设为符合该分布,备择假设为不符合该分布选择检...

2019-07-22 00:11:28 670

原创 狭义数据分析1

抽样理论集中趋势:均值、中位数、分位数、众数离中趋势:标准差、方差数据分布:偏态、峰态、正态分布抽样理论:抽样误差、抽样精度均值 df.mean()计算:数字加起来除以总量作用:经常用来衡量一些连续值,尤其是分布比较规律、均匀的连续值的集中趋势。中位数 df.median()作用:衡量异常值,有一些特别大或者特别小,用中位数衡量异常值的集中趋势。众数 df.mode(...

2019-07-21 23:59:00 1177

spark-2.4.4-bin-hadoop2.6.tgz

spark-2.4.4-bin-hadoop2.6.tgz

2020-02-02

GetIPv6.py

爬取国外某网站提供的大量ipv6地址,保存为csv。

2019-06-22

zzulioj 1296 a/b+c/d

1296: a/b + c/d 时间限制: 1 Sec 内存限制: 128 MB 提交: 213 解决: 135 [提交] [状态] [讨论版] [命题人:外部导入] 题目描述 给你2个分数,求他们的和,并要求和为最简形式。 输入 输入首先包含一个正整数T(T<=1000),表示有T组测试数据,然后是T行数据,每行包含四个正整数a,b,c,d 输出 对于每组测试数据,输出两个整数e和f,表示a/b + c/d的最简化结果是e/f,每组输出占一行。 样例输入 2 1 2 1 3 4 3 2 3 样例输出 5 6 2 1 来源/分类

2018-11-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除