今天有学习决策树等内容

最新推荐文章于 2024-08-09 20:39:47 发布

MAYBETTY

最新推荐文章于 2024-08-09 20:39:47 发布

阅读量257

点赞数

文章标签：决策树算法机器学习

本文链接：https://blog.csdn.net/MAYBETTY/article/details/121162875

版权

Chart

from openpyxl.chart import BarChart,Reference

openpyxl is a package,chart is a module and BarChart,Reference are classes.

最开始的代码好丑

import openpyxl as xl
from openpyxl.chart import BarChart,Reference

wb=xl.load_workbook('transactions.xlsx')
sheet=wb['Sheet1']
cell=sheet.cell(1,1)

for row in range(2,sheet.max_row+1):
    cell=sheet.cell(row,3)
    correct_price=cell.value*0.9
    correct_price_cell=sheet.cell(row,4)
    correct_price_cell.value=correct_price


values=Reference(sheet,
                 min_row=2,
                 max_row=sheet.max_row,
                 min_col=4,
                 max_col=4)

chart=BarChart()
chart.add_data(values)
sheet.add_chart(chart,"e2")

wb.save('transaction2.xlsx')

将这一段数据处理的功能不仅仅限于file"transaction2.xlsx",将它编译成一个函数，这样就可以应用到其他的表格之中了。

import openpyxl as xl
from openpyxl.chart import BarChart,Reference
def process_workbook(filename):
    wb=xl.load_workbook(filename)
    sheet=wb['Sheet1']

    for row in range(2,sheet.max_row+1):
        cell=sheet.cell(row,3)
        correct_price=cell.value*0.9
        correct_price_cell=sheet.cell(row,4)
        correct_price_cell.value=correct_price


    values=Reference(sheet,
                     min_row=2,
                     max_row=sheet.max_row,
                     min_col=4,
                     max_col=4)

    chart=BarChart()
    chart.add_data(values)
    sheet.add_chart(chart,"e2")

    wb.save(filename)

What is machine learning?

Machine learning in Action

steps

import the data
clean the data
split the data into training/test sets
create a model
train the model
make predictions
evaluate and improve

Libreries and Tools

LIBRARIES

Numpy
Pandas
MatPlotLib
Scikit-Learn

Importing a Data Set in jupyter

决策树

70%用于训练，30%的数据用来做测试。训练数据就是用来生成模型的数据，将测试数据放到模型里面去评估模型是否符合要求。如果不符合要求，需要进行再学习和再训练。

测试数据怎么检验我们生成的模型是否符合标准呢？

将30%数据放到模型里面，假装看不到这些标签（0，1)，因为这个模型会给他生成一系列的标签。模型的作用：已知一些数据属性的时候可以预测它的标签是什么。将属性值放到模型里面就可以得到一些预测的标签。将实际的标签与预测的标签进行对比，就可以知道这个模型的好坏。如果预测的标签与模型的标签完全一致，说明这个模型非常好。

什么是决策树

根结点（没有入边，只有出边）
内部结点（一条入边，多条出边）
叶子结点（方形结点）（有一条入边，没有出边）

如何使用决策树

运用决策树预测新加入数据的目标值，新数据有属性值，要预测目标列。

构建决策树

通过属性构造节点
- 是否有房：二元属性
- 婚姻状况：多元属性（单身、离异、已婚）
- 年收入：序数属性（序数属性是定性的，其只描述样本特征而不给出实际大小或数量）

属性选择时用什么指标度量？
- 熵
- 基尼系数(基尼系数最大为“1”，最小等于“0”。基尼系数越接近0表明收入分配越是趋向平等。国际上并没有一个组织或教科书给出最适合的基尼系数标准。但有不少人认为基尼系数小于0.2时，居民收入过于平均，0.2-0.3之间时较为平均，0.3-0.4之间时比较合理，0.4-0.5时差距过大，大于0.5时差距悬殊。)

构建一棵决策树的流程

计算每一个属性的基尼系数，基尼系数加权平均值最小的作为根节点。通过每一个属性一个一个判断，看标签是是还是否。

MAYBETTY

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
今天有学习决策树等内容

Chartfrom openpyxl.chart import BarChart,Referenceopenpyxl is a package,chart is a module and BarChart,Reference are classes.最开始的代码好丑import openpyxl as xlfrom openpyxl.chart import BarChart,Referencewb=xl.load_workbook('transactions.xlsx')s
复制链接

扫一扫