Python
文章平均质量分 54
彼得纲
应用统计小硕,数据挖掘方向,侧重机器学习算法的应用。目前Python是主力语言,R用的少,在看Java,也在点分布式计算(Hadoop、Spark)方面的技能,Linux、数据结构、数据库进阶中。
展开
-
Python爬虫(一)
环境:Python3 Anaconda URL的具体格式 scheme://host:port/path?query#fragment: .scheme: 通信协议,如http,ftp等。 .host: 主机,服务器(计算机)域名系统 (DNS) 主机名或 IP 地址。 .port: 端口号,原创 2016-01-16 09:37:02 · 428 阅读 · 0 评论 -
Scipy_Sparse介绍
sparse中的稀疏矩阵类共有以下几种:coo_matrix()、bsr_matrix()、csr_matrix()、lil_matrix()、dia_matrix()、dok_matrix()、spmatrix()这几种其中coo_matrix()是最容易理解的一种形式。原创 2016-03-24 16:58:03 · 6137 阅读 · 0 评论 -
Python的一些常用高级函数
最近在读Kaggle上获奖者的优秀代码,收获颇丰!在此列出了使用频率较高的一些函数如map(),reduce(),zip()等,这些函数自己以及很少接触,印象不深,故做此记录。1.map()函数 Series.map(func) 将函数应用到Series的每个元素上 2.apply()函数 frame.appply(f) 将函数f应用到数据框frame的每个列上面原创 2016-02-20 19:45:49 · 408 阅读 · 0 评论 -
Python学习
个人Python用的多,刚开始接触时就被这门语言简洁、优雅的特性所吸引。有句话说的好“Life is short,I use Python.”最近在看Java,对此感触颇多,相比之下,Python实在是太方便了,掌握熟练之后可以快速实现自己的想法,大大节省了开发时间,让使用者可以把精力用于问题本身而不是代码编写上。 我自己看的第一本书是《笨方法学Python》,虽然这本书的作者觉得把书原创 2016-06-28 22:46:07 · 474 阅读 · 0 评论 -
Python之生成器、迭代器
一.生成器形如K=[i*i for i in range(8)]的列表推导式可以用一行代码实现循环语句,使得Python代码更加简洁。但列表推导式也存在一个问题,就是它必须要先构造一个完整的列表,故其容量受内存大小的限制,而且并不是其中的每一个元素都会被用到,有时候仅仅用到前面几个,这就会造成内存资源的浪费。最近自己也在补计算机方面的知识,要加强对内存资源的利用的敏感度。而生成器仅原创 2016-01-28 17:39:09 · 473 阅读 · 0 评论 -
Kaggle竞赛优胜者源代码剖析(一)
比赛题目链接:https://www.kaggle.com/c/amazon-employee-access-challenge优胜者Github:https://github.com/pyduan/amazonaccess 该题目提供的数据集特征数较少,能拿到比赛的头名足以见得需要利用业务知识不断地进行变量转换创建新变量。作者用到的算法也是Kaggle中很常规的LR、GBD原创 2016-03-26 19:28:10 · 8012 阅读 · 1 评论