Chart
from openpyxl.chart import BarChart,Reference
openpyxl is a package,chart is a module and BarChart,Reference are classes.
最开始的代码好丑
import openpyxl as xl from openpyxl.chart import BarChart,Reference wb=xl.load_workbook('transactions.xlsx') sheet=wb['Sheet1'] cell=sheet.cell(1,1) for row in range(2,sheet.max_row+1): cell=sheet.cell(row,3) correct_price=cell.value*0.9 correct_price_cell=sheet.cell(row,4) correct_price_cell.value=correct_price values=Reference(sheet, min_row=2, max_row=sheet.max_row, min_col=4, max_col=4) chart=BarChart() chart.add_data(values) sheet.add_chart(chart,"e2") wb.save('transaction2.xlsx')
将这一段数据处理的功能不仅仅限于file"transaction2.xlsx",将它编译成一个函数,这样就可以应用到其他的表格之中了。
import openpyxl as xl from openpyxl.chart import BarChart,Reference def process_workbook(filename): wb=xl.load_workbook(filename) sheet=wb['Sheet1'] for row in range(2,sheet.max_row+1): cell=sheet.cell(row,3) correct_price=cell.value*0.9 correct_price_cell=sheet.cell(row,4) correct_price_cell.value=correct_price values=Reference(sheet, min_row=2, max_row=sheet.max_row, min_col=4, max_col=4) chart=BarChart() chart.add_data(values) sheet.add_chart(chart,"e2") wb.save(filename)
What is machine learning?
Machine learning in Action
steps
-
import the data
-
clean the data
-
split the data into training/test sets
-
create a model
-
train the model
-
make predictions
-
evaluate and improve
Libreries and Tools
LIBRARIES
-
Numpy
-
Pandas
-
MatPlotLib
-
Scikit-Learn
Importing a Data Set in jupyter
决策树
70%用于训练,30%的数据用来做测试。训练数据就是用来生成模型的数据,将测试数据放到模型里面去评估模型是否符合要求。如果不符合要求,需要进行再学习和再训练。
测试数据怎么检验我们生成的模型是否符合标准呢?
将30%数据放到模型里面,假装看不到这些标签(0,1),因为这个模型会给他生成一系列的标签。模型的作用:已知一些数据属性的时候可以预测它的标签是什么。将属性值放到模型里面就可以得到一些预测的标签。将实际的标签与预测的标签进行对比,就可以知道这个模型的好坏。如果预测的标签与模型的标签完全一致,说明这个模型非常好。
什么是决策树
-
根结点(没有入边,只有出边)
-
内部结点(一条入边,多条出边)
-
叶子结点(方形结点) (有一条入边,没有出边)
如何使用决策树
运用决策树预测新加入数据的目标值,新数据有属性值,要预测目标列。
构建决策树
-
通过属性构造节点
-
是否有房:二元属性
-
婚姻状况:多元属性(单身、离异、已婚)
-
年收入:序数属性(序数属性是定性的,其只描述样本特征而不给出实际大小或数量)
-
-
属性选择时用什么指标度量?
-
熵
-
基尼系数(基尼系数最大为“1”,最小等于“0”。基尼系数越接近0表明收入分配越是趋向平等。国际上并没有一个组织或教科书给出最适合的基尼系数标准。但有不少人认为基尼系数小于0.2时,居民收入过于平均,0.2-0.3之间时较为平均,0.3-0.4之间时比较合理,0.4-0.5时差距过大,大于0.5时差距悬殊。)
-
-
构建一棵决策树的流程
计算每一个属性的基尼系数,基尼系数加权平均值最小的作为根节点。通过每一个属性一个一个判断,看标签是是还是否。