数据探索
文章平均质量分 96
yichudu
code anything
展开
-
matlab(Octave) 绘图
1. ezplotplot , [plɒt] ,vt. 绘图。 ezplot,easy to plot。用于绘制一元函数。ezplot('expression',[左区间,右区间]) %语法ezplot('1/x',[-10,10]); %例子,y=1/x的图像 图 1-1 ezplot作图,octave2.mesh(x,y,z)用于作渔网图,即有若干个点(xi,yi,zi),用网线把它们穿连原创 2017-07-17 14:34:35 · 1818 阅读 · 0 评论 -
odps 中的抽样
分组抽样希望按照性别年龄分组, 去抽样查看他们的身高体重, 那么mysql可以这么写:select height, weight from student_table group by gender, age可odps 不支持这样的语法, 于是找到了cluster_sample() 这个函数. boolean cluster_sample(bigint x[, bigint ...原创 2017-08-03 15:08:32 · 6633 阅读 · 0 评论 -
数据探索, 快速把握数据特点和规律
对于二维随机变量(X,Y), 我们除了讨论X与Y的数学期望和 方差以外, 还需要描述X与Y之间的相互关系.Cov(X,Y)=E{[X−E(X)]×[Y−E(Y)]}ρ(X,Y)=σ(X)σ(Y)Cov(X,Y)σ(X)原创 2017-08-22 14:47:18 · 1092 阅读 · 0 评论 -
特征工程
有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。所以特征工程的目的是最大限度地从原始数据中提取特征以供算法和模型使用。清洗特征交叉一般用在LR中. LR只有线性的表达能力, 所以做特征交叉可以额外获得一些非线性表达. 如在个性化推荐中, 将用户的年龄离散化成10个档, 用户的性别又是2个档, 彼此交叉后就有了额外的20个特征....原创 2017-07-08 14:53:24 · 740 阅读 · 0 评论 -
一些 odps sql技巧
日期行为汇总有张表为pv_daily_table, 在不同partitionds 中记录每篇内容每日的pv, 那么想汇总每篇内容近3日, 近7日的pv, 就可以用下面的sql.SELECT content_id , SUM(IF(ds = '${ds}', pv, 0)) AS today_pv -- 当日pv , SUM(IF(ds > '${ds3...原创 2018-05-24 17:00:12 · 6636 阅读 · 0 评论