大数据练兵场
文章平均质量分 81
令狐公子
开朗活泼自信进取
展开
-
阿里音乐流行趋势预测大赛—浅尝辄止(一)
如火如荼的阿里音乐流行趋势预测大赛终于落下帷幕,作者未能全力以赴的好好参与其中拿个名次实在遗憾,作为菜鸟新人还是有不少心里上过不去的坎的,希望接下来能结识更多的爱好者,共同学习进步,争取在下次比赛的时候拿到一个令自己满意的结果,有意向参加kaggle等类似比赛的欢迎联系我呦~~~~~ 因为没有一个好的成绩,所以也没有太多的所谓权威发言权,但是初尝此类大数据比赛还是挺有感觉的,数据的处理过程很有意思,在此本文暂且只介绍评判值F的计算方法,还有对阿里给出的数据中时间戳的处理,如有新的内容将在接下来的博文原创 2016-07-28 14:23:16 · 2688 阅读 · 0 评论 -
Kaggle - Bike Sharing Prediction
import pylabimport calendarimport numpy as npimport pandas as pdimport seaborn as snfrom scipy import statsimport missingno as msnofrom datetime import datetimeimport matplotlib.pyplot as plt...原创 2019-02-13 17:43:18 · 607 阅读 · 0 评论 -
Dask-大规模数据存储与读取、并行计算
在进行大规模的数据分析时,本机的内存往往不够,同时又不想使用spark等大数据工具的话,Dask是一个不错的替代选择。而且它的api使用跟pandas很相似,对于从pandas数据分析过渡来的使用起来非常方便。下面我们基于亚马逊用户音乐评论数据,使用Dask读取操作数据,画用户评论词云。#-------Dask解决方案-------#import dask.bag as dbimport uj...原创 2018-07-02 16:19:42 · 15079 阅读 · 0 评论 -
海量数据处理相关算法简介
https://www.jianshu.com/p/c862130f322d dask词云https://juejin.im/entry/5aa79a55518825558453ac10#dask.dataframe.DataFrame.apply dask numba加速https://blog.csdn.net/xiaopihaierletian/artic...原创 2018-06-20 20:46:12 · 626 阅读 · 0 评论 -
机器学习算法应用场景实例
机器学习算法应用场景实例六十则标签: 人工智能数据挖掘机器学习竞赛算法2016-12-14 22:19 8217人阅读 评论(2) 收藏 举报 分类:竞赛(4) 版权声明:本文为博主原创文章,未经博主允许不得转载。 本文整理了60个机器学习算法应用场景实例,含分类算法应用场景20个、回归算法应用场景20个、聚类算转载 2018-05-25 09:39:32 · 7481 阅读 · 0 评论 -
Machine Learning中的数据不平衡问题
在机器学习问题中,经常会遇到数据分布不平衡的问题。例如在垃圾邮件分类问题中,只有少数的样本属于垃圾邮件,大多数样本都是非垃圾邮件,这样训练出来的分类模型对垃圾邮件检测率往往较低。这里介绍一些解决思路,以供大家参考!我们约定:多数类样本使用Large表示,少数类样本使用Small表示,r=S/L。Weighted loss function:加权损失函数,在sklearn中,通过调节class_we...原创 2018-04-23 14:24:12 · 918 阅读 · 0 评论 -
Kaggle实战——泰坦尼克生存预测大赛
In [6]:import csvimport numpy as npcsv_file_object = csv.reader(open('D:/In/kaggle/Titanic/train.csv', 'rt'))data=[] for row in csv_file_object: data.append(row)#data = n原创 2018-01-10 09:06:51 · 1852 阅读 · 0 评论 -
阿里音乐流行趋势预测大赛—浅尝辄止(三)
这篇博文是在阿里音乐大赛(一)和阿里音乐大赛(二)之后的,参考到以为博主的文章和代码给我带来了很多启发,发现了很多Pandas的新用法,所以在这里做一个记录总结;关于阿里音乐大赛的相关方法介绍可以参考前两篇文章,这里不再多说,下面直接进入本篇主题内容:原创 2016-08-17 16:34:52 · 1217 阅读 · 0 评论 -
阿里音乐流行趋势预测大赛—浅尝辄止(二)
本篇博文接上一篇博文浅尝辄止(一)的内容,这里主要介绍竞赛给的数据中时间戳的处理方法,时间戳是形如“1426406400”形式的一组时间计数,我们需要将其转化为正常的时分秒的形式,然后再将转化后的结果写入到csv文件当中去,最后我们得到的转换前的和转换后的文件内容形式如下:原创 2016-07-28 14:23:56 · 1559 阅读 · 1 评论 -
Python点滴(八)—pandas中的透视表
首先导入需要使用的numpy和pandas功能库,numpy用于数值计算,Pandas是基于numpy构建的用于科学计算的功能库,pandas.pivot_table是Pandas库(pd)中的函数。然后读取Lending Club数据 ,并生成名为lc的数据表。 1 2 3 importpandas as pd importnum...转载 2019-09-03 11:24:38 · 1260 阅读 · 0 评论