pandas小记:pandas高级功能

http://blog.csdn.net/pipisorry/article/details/53486777pandas高级功能:面板数据、字符串方法、分类、可视化。面板数据{pandas数据结构有一维Series,二维DataFrame,这是三维Panel}pandas有一个Panel数据结构,可以将其看做一个三维版的,可以用一个由DataFrame对象组成的字典或一个三维ndarray来创建...
阅读(3584) 评论(0)

python模块:网络协议和支持

python模块:网络协议和支持 webbrowser调用浏览器显示html文件webbrowser.open('map.html')[webbrowser — Convenient Web-browser controller]皮皮bloguuid/hmac/hashlib生成唯一ID在有些情况下你需要生成一个唯一的字符串。我看到很多人使用md5()函数来达...
阅读(825) 评论(0)

Matplotlib Toolkits:地图绘制工具

httpMatplotlib Toolkits:地图绘制工具 Basemap(Not distributed with matplotlib,要手动安装)Plots data on map projections, with continental and political boundaries, see basemap docs.安装先下载anaconda...
阅读(1898) 评论(0)

Matplotlib Toolkits:python高级绘图库seaborn

http://blog.csdn.net/pipisorry/article/details/49515745Seaborn介绍seaborn(Not distributed with matplotlib)seaborn is a highlevel interface for drawing statistical graphics with matplotlib. Itaims to mak...
阅读(8687) 评论(0)

信息论:熵与互信息

http://blog.csdn.net/pipisorry/article/details/51695283这篇文章主要讲:熵, 联合熵(joint entropy),条件熵(conditional entropy),相对熵(relative entropy,KL 距离),互信息(mutual information),交叉熵(cross entropy),困惑度(perplexity)。熵/信...
阅读(17894) 评论(0)

Scikit-learn:最近邻搜索sklearn.neighbors

http://blog.csdn.net/pipisorry/article/details/53156836ball treek-d tree也有问题[最近邻查找算法kd-tree ]。矩形并不是用到这里最好的方式。偏斜的数据集会造成我们想要保持树的平衡与保持区域的正方形特性的冲突。另外,矩形甚至是正方形并不是用在这里最完美的形状,由于它的角。如果图6中的圆...
阅读(2868) 评论(0)

Spark:聚类算法

Spark:聚类算法 Kmeans聚类KMeans算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心,从而确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值。K-Means聚类算法主要分为三个步骤:(1)第一步是为待聚类的点寻找聚类中心(2)第二步是计算每个点到聚类中心的距离,将每个点聚类到...
阅读(1328) 评论(0)

Spark:Spark 编程模型及快速入门

http://blog.csdn.net/pipisorry/article/details/52366356Spark编程模型SparkContext类和SparkConf类我们可通过如下方式调用 SparkContext 的简单构造函数,以默认的参数值来创建相应的对象。val sc = new SparkContext("local[4]", "Test Spark App")这段代码会创建一...
阅读(4087) 评论(0)

Scikit-learn:聚类clustering

http://blog.csdn.net/pipisorry/article/details/53185758不同聚类效果比较sklearn不同聚类示例比较A comparison of the clustering algorithms in scikit-learn不同聚类综述Method nameParametersScalabilityUsecaseGeometry (metric use...
阅读(2342) 评论(1)

Spark核心类:SQLContext和DataFrame

http://blog.csdn.net/pipisorry/article/details/53320669pyspark.sql.SQLContext[pyspark.sql.SQLContext]皮皮blogpyspark.sql.DataFramespark df和pandas dfspark df的操作基本和pandas df操作一样的[Pandas小记(6)...
阅读(3438) 评论(0)

Spark核心类:弹性分布式数据集RDD及其转换和操作pyspark.RDD

http://blog.csdn.net/pipisorry/article/details/53257188弹性分布式数据集RDD(Resilient Distributed Dataset)创建RDD并行集合 (Parallelized collections)RDD可从现有的集合创建。比如在Scala shell中:val collection = List("a", "b", "c", "...
阅读(3074) 评论(0)

未名

http://blog.csdn.net/pipisorry/article/details/53116829待定。。。from: http://blog.csdn.net/pipisorry/article/details/53116829ref:...
阅读(535) 评论(0)

python模块:时间处理模块

http://blog.csdn.net/pipisorry/article/details/53067168常用python自带时间处理模块python自带的时间处理模块参考[操作系统服务:time时间模块+datetime模块 ]有一些情况下,datetime却并没有那么好用。比如:1.创建日期时间范围2.创建未固定的日期时间3.检验两个日期时间的差值是否...
阅读(1311) 评论(0)

python命令行参数解析模块argparse和docopt

http://blog.csdn.net/pipisorry/article/details/53046471还有其他两个模块实现这一功能,getopt(等同于C语言中的getopt())和弃用的optparse。因为argparse是基于optparse,所以用法很类似。添加命令行解析参数add_argument()方法参数可以触发不同的动作,动作由 add_argument() 方法的 act...
阅读(4508) 评论(0)

Scikit-learn:分类classification

http://blog.csdn.net/pipisorry/article/details/53034340支持向量机SVM分类svm分类有多种不同的算法。svcImplementation of Support Vector Machine classifier using libsvm: the kernel can be non-linear but its SMO algorithm d...
阅读(1036) 评论(0)

Scikit-learn:模型评估Model evaluation 之绘图

http://blog.csdn.net/pipisorry/article/details/53001866绘制ROC曲线def plotRUC(yt, ys, title=None): ''' 绘制ROC-AUC曲线 :param yt: y真值 :param ys: y预测值 ''' from sklearn import metrics...
阅读(857) 评论(0)

Spark:聚类算法之LDA主题模型算法

http://blog.csdn.net/pipisorry/article/details/52912179Spark上实现LDA原理LDA主题模型算法[主题模型TopicModel:隐含狄利克雷分布LDA ]Spark实现LDA的GraphX基础在Spark 1.3中,MLlib现在支持最成功的主题模型之一,隐含狄利克雷分布(LDA)。LDA也是基于Gra...
阅读(4690) 评论(2)

Spark:相关错误总结

http://blog.csdn.net/pipisorry/article/details/52916307spark FileNotFoundError: [Errno 2] No such file or directory: '~/ENV/spark/./bin/spark-submit'居然是因为这个引发的错误:SPARK_HOME = ~/ENV/spark应该改成SPARK_HOME...
阅读(8227) 评论(0)

Scala:函数式编程之下划线underscore

http://blog.csdn.net/pipisorry/article/details/52913548Scala 中下划线的用法 1、存在性类型:Existential typesdef foo(l: List[Option[_]]) = ...2、高阶类型参数:Higher kinded type parameterscase class A[K[_],T](a: K[T])3、临时变量...
阅读(656) 评论(0)

机器学习模型选择:调参参数选择

http://blog.csdn.net/pipisorry/article/details/52902797调参经验好的实验环境是成功的一半由于深度学习实验超参众多,代码风格良好的实验环境,可以让你的人工或者自动调参更加省力,有以下几点可能需要注意:将各个参数的设置部分集中在一起。如果参数的设置分布在代码的各个地方,那么修改的过程想必会非常痛苦。可以输出模型的损失函数值以及训练集和验证集上的准确...
阅读(621) 评论(0)
569条 共29页首页 上一页 1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:2595740次
    • 积分:25335
    • 等级:
    • 排名:第248名
    • 原创:534篇
    • 转载:30篇
    • 译文:5篇
    • 评论:245条
    Welcome to 皮皮blog~

    博客专栏
    最新评论