学习笔记(01):零基础搞定Python数据分析与挖掘-列表元组与字典的介绍（一）-CSDN博客

本文链接：https://blog.csdn.net/qq_29556663/article/details/105219645

立即学习:https://edu.csdn.net/course/play/6861/334686?utm_source=blogtoedu

1、SEMMA代表：
   S：sample（搜集数据）例如：影响收入的因素有哪些？如何预测收入范围？
   E：explore（数据探索）例如：各变量的确实状态？统计描述？数据分布状态？
   M：modify（数据修正）例如：数据一致性、数据类型转换、异常值、数据形态
   M：model（数据建模）例如：侧重于未知问题的预测——
               1、有监督的预测性模型（回归、决策树、KNN）、
               2、有监督的判别性模型（logistic、贝叶斯、集成算法）、
               3、无监督模型（Kmeans聚类、层次聚类、密度聚类）、
               4、半监督模型（关联规则）不常用
   A：Assess（模型评估）
2、Python的数据结构可以理解为容器
3、正向单索引从左往右（[index]）、负向单索引从头往左（[-index]）
4、字符串的查询：
       查询子串：
           str.find(sub[,start[,end]]) 如果没有找到子串会返回-1
           str.index(sub[,start[,end]]) 如果没有找到子串会报错
5、字符串的压缩（可以理解为删除首或者尾部的指定字符）：
       str.lstrip([chars])
       str.rstrip([chars])
       str.strip([chars])
   如果不指定chars 那就是删除所有可能是空白字符的字符，比方说空格、换行等等
   注意，上面的都是指首位两端，而要删除中间的字符，那就用替换
6、字符串的替换：
       str.replace（old,new）
7、字符串的格式化插入：
       str.format（values）
8、字符串的分割方法：