练习:一个新的安然特征练习
poi_flag_emal.py
if from_emails:
ctr=0
while not from_poi and ctr < len(from_emails):
if from_emails[ctr] in poi_email_list:
from_poi = True
ctr += 1
练习:可视化新特征
studentCode.py
### you fill in this code, so that it returns either
### the fraction of all messages to this person that come from POIs
### or
### the fraction of all messages from this person that are sent to POIs
### the same code can be used to compute either quantity
### beware of "NaN" when there is no known email address (and so
### no filled email features), and integer division!
### in case of poi_messages or all_messages having "NaN" value, return 0.
if poi_messages !='NaN' and all_messages != 'NaN':
fraction = float(poi_messages)/all_messages
else:
fraction =0.
return fraction
警惕特征漏洞:
任何人都有可能犯错—要对你得到的结果持怀疑态度!你应该时刻警惕 100% 准确率。不寻常的主张要有不寻常的证据来支持。如果有特征过度追踪你的标签,那么它很可能就是一个漏洞!如果你确定它不是漏洞,那么你很大程度上就不需要机器学习了——你可以只用该特征来分配标签。去除特征:
什么情况下回忽略一种特征:
特征≠信息,特征是特定的试图获取信息的数据点的实际数量或特点
例如:如果你有大量的特征,你可能拥有大量的数据,而这些特征的质量就是信息的内容。我们需要的是尽量多信息的数量尽量少的特征,如果你认为特征没有能给予你信息,你就要删除它。
在 sklearn 中自动选择特征有多种辅助方法。多数方法都属于单变量特征选择的范畴,即独立对待每个特征并询问其在分类或回归中的能力。
sklearn 中有两大单变量特征选择工具:SelectPercentile 和 SelectKBest。 两者之间的区别从名字就可以看出:SelectPercentile 选择最强大的 X% 特征(X 是参数),而 SelectKBest 选择 K 个最强大的特征(K 是参数)。
经典的高偏差情形:使用少量特征引发高偏差
经典的高方差情形:过多的特征、过于调整参数
平衡点:使用很少几个特征来拟合某种算法,但是同时就回归而言,想要得到较大的R方或较低的残余误差平方和
过多特征造成高方差,泛化能力弱
一种正则化回归:Lasso回归
一般的线性回归是要最大程度地降低拟合中的平