立即学习:https://edu.csdn.net/course/play/6861/334686?utm_source=blogtoedu
1、SEMMA代表:
S:sample(搜集数据) 例如:影响收入的因素有哪些?如何预测收入范围?
E:explore(数据探索)例如:各变量的确实状态?统计描述?数据分布状态?
M:modify(数据修正)例如:数据一致性、数据类型转换、异常值、数据形态
M:model(数据建模)例如:侧重于未知问题的预测——
1、有监督的预测性模型(回归、决策树、KNN)、
2、有监督的判别性模型(logistic、贝叶斯、集成算法)、
3、无监督模型(Kmeans聚类、层次聚类、密度聚类)、
4、半监督模型(关联规则) 不常用
A:Assess(模型评估)
2、Python的数据结构可以理解为容器
3、正向单索引从左往右([index])、负向单索引从头往左([-index])
4、字符串的查询:
查询子串:
str.find(sub[,start[,end]]) 如果没有找到子串会返回-1
str.index(sub[,start[,end]]) 如果没有找到子串会报错
5、字符串的压缩(可以理解为删除首或者尾部的指定字符):
str.lstrip([chars])
str.rstrip([chars])
str.strip([chars])
如果不指定chars 那就是删除所有可能是空白字符的字符,比方说空格、换行等等
注意,上面的都是指首位两端,而要删除中间的字符,那就用替换
6、字符串的替换:
str.replace(old,new)
7、字符串的格式化插入:
str.format(values)
8、字符串的分割方法: