今天有学习决策树等内容

Chart

from openpyxl.chart import BarChart,Reference

openpyxl is a package,chart is a module and BarChart,Reference are classes.

最开始的代码好丑

import openpyxl as xl
from openpyxl.chart import BarChart,Reference
​
wb=xl.load_workbook('transactions.xlsx')
sheet=wb['Sheet1']
cell=sheet.cell(1,1)
​
for row in range(2,sheet.max_row+1):
    cell=sheet.cell(row,3)
    correct_price=cell.value*0.9
    correct_price_cell=sheet.cell(row,4)
    correct_price_cell.value=correct_price
​
​
values=Reference(sheet,
                 min_row=2,
                 max_row=sheet.max_row,
                 min_col=4,
                 max_col=4)
​
chart=BarChart()
chart.add_data(values)
sheet.add_chart(chart,"e2")
​
wb.save('transaction2.xlsx')

将这一段数据处理的功能不仅仅限于file"transaction2.xlsx",将它编译成一个函数,这样就可以应用到其他的表格之中了。

import openpyxl as xl
from openpyxl.chart import BarChart,Reference
def process_workbook(filename):
    wb=xl.load_workbook(filename)
    sheet=wb['Sheet1']
​
    for row in range(2,sheet.max_row+1):
        cell=sheet.cell(row,3)
        correct_price=cell.value*0.9
        correct_price_cell=sheet.cell(row,4)
        correct_price_cell.value=correct_price
​
​
    values=Reference(sheet,
                     min_row=2,
                     max_row=sheet.max_row,
                     min_col=4,
                     max_col=4)
​
    chart=BarChart()
    chart.add_data(values)
    sheet.add_chart(chart,"e2")
​
    wb.save(filename)
​

What is machine learning?

Machine learning in Action

steps

  1. import the data

  2. clean the data

  3. split the data into training/test sets

  4. create a model

  5. train the model

  6. make predictions

  7. evaluate and improve

Libreries and Tools

LIBRARIES

  • Numpy

  • Pandas

  • MatPlotLib

  • Scikit-Learn

Importing a Data Set in jupyter

决策树

70%用于训练,30%的数据用来做测试。训练数据就是用来生成模型的数据,将测试数据放到模型里面去评估模型是否符合要求。如果不符合要求,需要进行再学习和再训练。

测试数据怎么检验我们生成的模型是否符合标准呢?

将30%数据放到模型里面,假装看不到这些标签(0,1),因为这个模型会给他生成一系列的标签。模型的作用:已知一些数据属性的时候可以预测它的标签是什么。将属性值放到模型里面就可以得到一些预测的标签。将实际的标签与预测的标签进行对比,就可以知道这个模型的好坏。如果预测的标签与模型的标签完全一致,说明这个模型非常好。

什么是决策树

  • 根结点(没有入边,只有出边)

  • 内部结点(一条入边,多条出边)

  • 叶子结点(方形结点) (有一条入边,没有出边)

如何使用决策树

运用决策树预测新加入数据的目标值,新数据有属性值,要预测目标列。

构建决策树

  1. 通过属性构造节点

    • 是否有房:二元属性

    • 婚姻状况:多元属性(单身、离异、已婚)

    • 年收入:序数属性(序数属性是定性的,其只描述样本特征而不给出实际大小或数量)

  1. 属性选择时用什么指标度量?

    • 基尼系数(基尼系数最大为“1”,最小等于“0”。基尼系数越接近0表明收入分配越是趋向平等。国际上并没有一个组织或教科书给出最适合的基尼系数标准。但有不少人认为基尼系数小于0.2时,居民收入过于平均,0.2-0.3之间时较为平均,0.3-0.4之间时比较合理,0.4-0.5时差距过大,大于0.5时差距悬殊。)

  1. 构建一棵决策树的流程

    计算每一个属性的基尼系数,基尼系数加权平均值最小的作为根节点。通过每一个属性一个一个判断,看标签是还是

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值