1. kmeans是啥
一种em过程的聚类方法,先固定类中心将每个点划分到最近的类中,然后更新类中心,通过这种迭代的方法进行聚类。
优点是速度较其它的聚类方法较快,缺点是需要预先设定类的数目,并且对初始化的类中心敏感,对异常值敏感。
2. left join inner join 区别
左连接是保留所有左表中的值,右表无对应的值会表示为。
内连接是两个表的交集。
3. 常用的Python库有哪些
1)numpy:矩阵运算
2)sklearn:常用机器学习和数据挖掘工具库
3)scipy:基于numpy做高效的数学计算,如积分、线性代数、稀疏矩阵等
4)pandas:将数据用表的形式进行操作
5)matplotlib:数据可视化工具
6)seaborn:数据可视化工具
7)keras/tensorflow/theano:深度学习工具包
8)NLTK:自然语言处理工具包
9)beautifulsoap:网页文档解析工具