![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python数据分析
IT独白者
这个作者很懒,什么都没留下…
展开
-
Mac和Win下CSV中文乱码问题解决方法
在Win和Mac下打开csv文档都会有中文乱码的问题,那么我们需要对在这两种操作系统下出现的问题进行研究。一、首先是在Mac系统例如下图所示,有一个文件“users.csv”,里面的内容是中文,并且选中文件后点击空格预览,也能正常显示中文。 但用Excel打开时,就变成一堆乱码。如下图所示: 究其原因是Mac下文本的默认编码是UTF-8,而Excel对中文的处理是GBK编码。(听不懂?转载 2017-11-30 13:27:11 · 5486 阅读 · 0 评论 -
聚类、K-Means、例子、细节
聚类今天说聚类,但是必须要先理解聚类和分类的区别,很多业务人员在日常分析时候不是很严谨,混为一谈,其实二者有本质的区别。分类其实是从特定的数据中挖掘模式,作出判断的过程。比如Gmail邮箱里有垃圾邮件分类器,一开始的时候可能什么都不过滤,在日常使用过程中,我人工对于每一封邮件点选“垃圾”或“不是垃圾”,过一段时间,Gmail就体现出一定的智能,能够自动过滤掉一些垃圾邮件了。这是因为在点选的过程转载 2017-11-22 21:24:55 · 23159 阅读 · 7 评论 -
层次聚类算法的原理及实现Hierarchical Clustering
层次聚类(Hierarchical Clustering)是聚类算法的一种,通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中,不同类别的原始数据点是树的最低层,树的顶层是一个聚类的根节点。创建聚类树有自下而上合并和自上而下分裂两种方法,本篇文章介绍合并方法。层次聚类的合并算法层次聚类的合并算法通过计算两类数据点间的相似性,对所有数据点中最为相似的两个转载 2017-12-02 20:08:17 · 1317 阅读 · 0 评论 -
numpy 基础 —— np.linalg
(1)np.linalg.inv():矩阵求逆(2)np.linalg.det():矩阵求行列式(标量)np.linalg.norm顾名思义,linalg=linear+algebra,norm则表示范数,首先需要注意的是范数是对向量(或者矩阵)的度量,是一个标量(scalar):首先help(np.linalg.norm)查看其文档:norm(x, ord=None,转载 2017-11-25 22:15:42 · 1675 阅读 · 0 评论 -
Python csv模块的使用
1、csv简介CSV (Comma Separated Values),即逗号分隔值(也称字符分隔值,因为分隔符可以不是逗号),是一种常用的文本格式,用以存储表格数据,包括数字或者字符。很多程序在处理数据时都会碰到csv这种格式的文件,它的使用是比较广泛的(Kaggle上一些题目提供的数据就是csv格式),csv虽然使用广泛,但却没有通用的标准,所以在处理csv格式时常常会碰到麻烦,幸好pytho...转载 2018-05-18 13:48:53 · 2118 阅读 · 0 评论 -
python的=拷贝、浅拷贝copy和deepcopy深拷贝
当你a=1000的时候a指向一个新的类,内容为1000,而b仍然指向原来指向的内容,因为你没有叫它指向其他内容。你使用=符号,使得a和b指向同一个内容,而copy则是将b的内容复制后让c指向这个拷贝的内容上了。看下面图种运行的结果。b=a,使用a改变"age",b和a中的都改变了。而c采用copy,不受影响。等会儿画个图补充上来就更容易理解了。 C从来没有改变过。c中age的值一直保持在copy...转载 2018-07-12 20:40:31 · 1414 阅读 · 0 评论 -
机器学习实战—第5章:Logistic回归中程序清单5-1中的数学推导
如图中梯度上升法给出的函数代码。 假设函数为: 1、梯度上升算法(参数极大似然估计值): 通过查看《统计学习方法》中的模型参数估计,分类结果为类别0和类别1的概率分别为: 则似然函数为: 对数似然函数为: 最大似然估计求使得对数似然函数取最大值时的参数θθ 对L(θ)求导得: 即为: 则单个特征系数的梯度上升法的迭代公式为: 对整个...转载 2018-07-24 20:36:27 · 1362 阅读 · 0 评论