python
铭霏
这个作者很懒,什么都没留下…
展开
-
十分钟搞定pandas
本文是对pandas官方网站上《10 Minutes to pandas》的一个简单的翻译,原文在这里。这篇文章是对pandas的一个简单的介绍,详细的介绍请参考:Cookbook 。习惯上,我们会按下面格式引入所需要的包:一、创建对象可以通过 Data Structure Intro Setion 来查看有关该节内容的详细信息。1、可以通过传递一个list转载 2016-04-03 22:22:02 · 1061 阅读 · 0 评论 -
Python中如何使用*args和**kwargs
原文英文地址:https://www.saltycrane.com/blog/2008/01/how-to-use-args-and-kwargs-in-python/原文翻译地址:http://python.jobbole.com/83476/Python中如何使用*args和**kwargs,或者说,在Python中如何使用可变长参数列表。函数定义这是一种特殊的转载 2018-01-29 13:26:59 · 651 阅读 · 0 评论 -
python在linux下代码调试pdb
python -m pdb myscript.pyor import pdb; pdb.set_trace()命令解释break 或 b 设置断点设置断点continue 或 c继续执行程序list 或 l查看当前行的代码段step 或 s进入函数原创 2017-12-12 10:01:57 · 636 阅读 · 0 评论 -
Random Forest(sklearn参数详解)
本篇不是介绍RF的,关于RF网上有很多通俗易懂的解释西瓜书与统计学习方法等很多教材中的解释也都足够本篇仅针对如何使用sklearn中的RandomForestClassifier作记录一、代码怎么写class sklearn.ensemble.RandomForestClassifier(n_estimators=10, crite-rion=’gini’, max_dep原创 2016-08-17 10:32:42 · 75968 阅读 · 5 评论 -
使用sklearn做单机特征工程
1 特征工程是什么? 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面: 特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包括数据预处理,特征选转载 2016-09-27 23:04:05 · 949 阅读 · 0 评论 -
集成学习实践(sklearn)
1 Random Forest和Gradient Tree Boosting参数详解 在sklearn.ensemble库中,我们可以找到Random Forest分类和回归的实现:RandomForestClassifier和RandomForestRegression,Gradient Tree Boosting分类和回归的实现:GradientBoostingClassifier和Gr转载 2016-08-24 14:29:58 · 1094 阅读 · 0 评论 -
集成学习理论(sklearn)
1 集成学习是什么? 我们还是花一点时间来说明一下集成学习是什么,如果对此有一定基础的同学可以跳过本节。简单来说,集成学习是一种技术框架,其按照不同的思路来组合基础模型,从而达到其利断金的目的。 目前,有三种常见的集成学习框架:bagging,boosting和stacking。国内,南京大学的周志华教授对集成学习有很深入的研究,其在09年发表的一篇概述性论文《Ensemble L转载 2016-08-24 14:04:08 · 974 阅读 · 0 评论 -
数据挖掘初探(skleran)
1 使用sklearn进行数据挖掘1.1 数据挖掘的步骤 数据挖掘通常包括数据采集,数据分析,特征工程,训练模型,模型评估等步骤。 我们使用sklearn进行虚线框内的工作(sklearn也可以进行文本特征提取)。通过分析sklearn源码,我们可以看到除训练,预测和评估以外,处理其他工作的类都实现了3个方法:fit、transform和fit_transform。从命名中转载 2016-08-24 13:25:51 · 1807 阅读 · 0 评论 -
特征工程(sklearn)
一、特征工程是什么 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面: 特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包转载 2016-08-24 13:09:33 · 10779 阅读 · 0 评论 -
PCA(sklearn参数详解)
本篇不介绍PCA ,关于PCA收藏过另外几篇写的很好的博文本篇仅针对sklearn中的PCA作记录一、代码怎么写sklearn.decomposition.PCA(n_components=None, copy=True, whiten=False) 二、关于参数n_components: 意义:PCA算法中所要保原创 2016-08-23 21:47:46 · 30391 阅读 · 5 评论 -
Scikit-learn技巧(拓展)总结
本文转载自:http://www.jianshu.com/p/516f009c0875最近看了《Python数据挖掘入门与实战》,网上有说翻译地不好的,但是说实话,我觉得这本书还是相当不错的。作者Robert Layton是sklearn的开发者之一,书中介绍了很多sklearn使用的技巧和拓展的方法。这里就书中关于sklearn的部分,还有自己学习sklearn的知识,我做一个总结的转载 2016-09-13 09:42:01 · 8888 阅读 · 0 评论 -
Python给函数传递不定关键字的参数
转载请注明来自公众号『数据挖掘机养成记』前言在上一篇文章『[Python]给函数传递不定个数的参数』中,我们主要讲解了*在函数定义和函数调用阶段的不同作用,并留了一个小问题:我们用*定义了add_int(*a)函数,现在有a_list=[1,2,3],那么我们调用add_int(*a_list)会产生什么效果呢?如果文章你已看懂,那不难知道,最后被传到函转载 2016-08-19 13:49:09 · 3634 阅读 · 1 评论 -
Python给函数传递不定个数的参数
转载:来自公众号『数据挖掘机养成记』问题起源在Python中常常看到有这样的函数,它们的入口参数的个数是不定的。比如有如下代码In: print zip([1, 2],[3, 4])Out: [(1, 3), (2, 4)]In: print zip([1, 2],[3, 4],[5, 6])Out: [(1, 3, 5), (2, 4, 6)]其中zip是Pyt转载 2016-08-19 13:42:47 · 35502 阅读 · 2 评论 -
Python中的sorted函数以及operator.itemgetter函数
operator.itemgetter函数operator模块提供的itemgetter函数用于获取对象的哪些维的数据,参数为一些序号(即需要获取的数据在对象中的序号),下面看例子。a = [1,2,3] >>> b=operator.itemgetter(1) //定义函数b,获取对象的第1个域的值>>> b(a) 2 >>> b=operator.it转载 2016-08-16 12:33:00 · 367 阅读 · 0 评论 -
Python字符串与数字拼接 TypeError: cannot concatenate 'str' and 'int' objects
如代码:# coding=utf8str = '你的分数是:'num = 82text = str+numprint text执行结果直接报错:TypeError: cannot concatenate 'str' and 'int' objects解决这个方法只有提前把num转换为字符串类型,可以使用bytes函数把int型转换为string型。原创 2016-03-11 00:40:07 · 31611 阅读 · 0 评论 -
Python Matplotlib 中文乱码
1.python 中文输出SyntaxError: Non-ASCII character '\xe4' in file X:/XXXXXXX.py on line 3, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details解决办法:在输出前面加上 # coding:utf-8原创 2016-02-27 13:00:23 · 972 阅读 · 0 评论 -
Python PEP8代码风格
Python 的代码风格由 PEP 8 描述。这个文档描述了 Python 编程风格的方方面面。在遵守这个文档的条件下,不同程序员编写的 Python 代码可以保持最大程度的相似风格。这样就易于阅读,易于在程序员之间交流。1 变量常量 : 大写加下划线USER_CONSTANT对于不会发生改变的全局变量,使用大写加下划线。私有变量 : 小写和一个前导下划线转载 2016-02-26 16:14:43 · 1036 阅读 · 0 评论 -
python os.system重定向stdout到变量 ,同时获取返回值(os.popen,commands.getstatusoutput)
一个很实用的小技巧。记录一下。Python执行系统命令的方法 os.system(),os.popen(),commands最近在做那个测试框架的时候发现 Python 的另一个获得系统执行命令的返回值和输出的类。最开始的时候用 Python 学会了 os.system() 这个方法是很多比如 C,Perl 相似的。os.system('cat /proc/cpuinfo')但是这样是无法获得到输...转载 2018-05-19 23:39:36 · 7186 阅读 · 0 评论