Python
记录数据分析工作、学习中遇到的各类案例、总结。
落花生@u
梧桐沧海孤狼,拱星映月不回头,一路向前。
展开
-
【GridStudio】 从0到1 [搭建+启动] 神级编辑器GridStudio
GridStudio是一位外国小哥开源到Git的Web应用程序。他集成了Python优秀的科学计算编程及数据csv表格化的能力。准备条件:虚拟机+PC(任意系统)。本篇只提供从0-1的流程思路,具体操作需要读者自己实操!原创 2020-03-29 13:32:54 · 3700 阅读 · 1 评论 -
【Python】信用评级项目——个人评分A卡制作
评分卡模型通常有四个类型,这里主要基于kaggle2011年的竞赛数据,制作个人主体评分卡。其他类型评分卡模型的制作大同小异。原创 2019-10-19 21:28:48 · 1764 阅读 · 1 评论 -
【Python】Random模块——验证码制导器
python 的 random 模块主要用于产生随机对象。该模块下有很多函数,调用他们可以使对象是单个值、序列、数组。本文开门见山的介绍random的下属函数功能,然后利用函数定义验证码制导器。原创 2019-08-24 12:05:59 · 224 阅读 · 1 评论 -
【Python】数据清洗之黑白双侠——numpy&pandas库
python的numpy库对数据的一些处理会出现“短路”,比如对缺失值的乱判断、对数字类型的乱转换,但它的其他模块却很有用,如random模块等;python的pandas库可以认为是numpy的改进升级版,它解决了numpy的问题,提供了更高级数据框对象等数据结构及方法。在数据清洗上,将numpy、pandas库配合使用、相辅相成,那么称其组合为黑白双侠是无过之而有不及。原创 2019-09-02 20:41:14 · 386 阅读 · 1 评论 -
【Python】爬虫案例——租房网站房间信息的全量抓取
作为数据分析师,爬虫是必备的技能之一。如何从流量大信息繁的互联网上获取数据?最好的回答就是python爬虫。当然,爬虫的工具很多,只是python的可塑性更强。本文以一家租房网站数据的爬取为例,说说python爬虫。原创 2019-09-12 22:35:15 · 1913 阅读 · 0 评论 -
【Pyton】支持向量机(SVM):对天气的预测准确率很高吗?
本文通过巧妙的预处理和特征工程来介绍在现实数据集上如何做数据预处理,或者说有哪些预处理的方式和思路。预测天气是一个非常非常困难的主题,因为影 响天气的因素太多,而Kaggle的这份数据也不负众望,是一份非常难也非常难得的数据集,难到用一般的机器学习算法(如SVM,LR)在这个数据集上都不会有太好的结果。好的数据预处理和模型的选择与调优就是重点了。那么,看文章的吧!原创 2019-09-20 20:14:01 · 5780 阅读 · 0 评论 -
【Python-爬虫】某城租房数据全量采集项目
一位做学术研究的客户,需要我国各城市的住房出租的数据,包括住房位置、交通情况、房间类型、房屋面积、月租价格等信息。在探索链家、安居客、贝壳、五八等租房网站的后,发现五八的数据范围最广,最符合客户的学术要求。同时,五八的反爬机制也超强,比如房间的关键数据利用自定义字体强加密、IP的超低频率访问限制、数据错位渲染等。本文重在分享搭建爬虫的思路,由于一些原因,对五八的一些敏感技术会做特殊处理,愿理解。原创 2019-10-10 12:35:21 · 1335 阅读 · 2 评论