数据分析
文章平均质量分 81
Chercheer
道阻且长
展开
-
数据降维
概念数据降维基本原理是将样本点从输入空间通过线性或非线性变换映射到一个低维空间,从而获得一个关于原数据集紧致的低维表示。为什么要降维:在原始的高维空间中,包含有冗余信息记忆噪声信息;feature太多会造成模型复杂,训练速度过慢,因此我们引入降维;多维数据很难进行可视化分析,因此我们需要降维分析。例如淘宝店铺的数据,“浏览量”访客数往往有较强的相关关系,如果删除其中一个指标,应该期原创 2017-01-07 20:20:04 · 1355 阅读 · 0 评论 -
模型评估
ROC曲线 接收器操作特性曲线(receiver operating characteristic curve),曲线上各点反映着相同的感受性,它们都是对同一信号刺激的反应,只不过是在几种不同的判定标准下所得的结果而已。概念定义:真正(TruePositive , TP)被模型预测为正的正样本;假负(FalseNegative , FN)被模型预测为负的正样本;假正(Fal原创 2017-01-07 20:13:12 · 4196 阅读 · 0 评论 -
python数据分析基础知识
常用数据结构List,tuple,dir,series,dataframe区别:list可修改,tuple不可修改操作:pop弹出最后一个元素;alist.append([5,6,7])在最后直接加上;alist.extend([5,6,7]) 把元素打开后添加到list里面去。 I/O数据的导入导出do=pd.read_csv("country_facts原创 2016-12-12 22:17:52 · 1990 阅读 · 0 评论 -
索引、分组与多表组合
索引的设置与逆操作set_index:给当前的数据集设置索引reset_index:将当前的索引设置成列注意几个参数append:boolean,default False;Whether to append columns to existing indexdrop:boolean,default True;Delete columns to be used as the原创 2016-12-22 14:22:43 · 1799 阅读 · 0 评论 -
【课程笔记】python建模
数据读取使用pandas读取结构化数据:pandas.read_csv(filepath_or_buffer, sep=', ', header='infer', names=None)探索数据了解数据类型 df.dtypes了解数值型变量的分布 df.describe()了解分类变量的分布 Series.value_counts()可以通过绘图探索数据原创 2017-01-08 14:41:46 · 1387 阅读 · 0 评论 -
python爬虫基础知识
爬虫基本知识基本流程:网站-爬虫程序-本地存储(让爬虫程序伪装成一个浏览器去请求,而不是一个程序在跑)日常操作中打开网页流程:输入网站URL,按回车键-浏览器发送请求至远程服务器-远程服务器返回数据-浏览器渲染页面展示出合适的页面URL基本知识传输协议(HTTP、HTTPS、FTP等):一个冒号,两个斜杠主机(通常是一个域名,也有是IP的);端口(服务器上网络端原创 2017-01-09 18:30:40 · 1402 阅读 · 0 评论 -
Sklearn-GridSearchCV网格搜索
GridSearchCV,它存在的意义就是自动调参,只要把参数输进去,就能给出最优化的结果和参数。但是这个方法适合于小数据集,一旦数据的量级上去了,很难得出结果。这个时候就是需要动脑筋了。数据量比较大的时候可以使用一个快速调优的方法——坐标下降。它其实是一种贪心算法:拿当前对模型影响最大的参数调优,直到最优化;再拿下一个影响最大的参数调优,如此下去,直到所有的参数调整完毕。这个方法的缺点就是可能会原创 2017-02-10 14:44:45 · 39897 阅读 · 6 评论 -
数据分析与数据挖掘面试题收集
比赛怎么做的(先说解决的问题,属于回归还是二分类问题,KS曲线是什么含义,能优化吗(用AUC代替))KS值:用真正率和假正率的累计值分别做为纵坐标就得到两个曲线,这就是K-S曲线。GBDT与XGBoost的区别(知乎wepon大神:https://www.zhihu.com/question/41354392)传统GBDT以CART作为基分类器,xgbo原创 2017-04-07 00:53:00 · 5189 阅读 · 0 评论