- 博客(16)
- 资源 (21)
- 收藏
- 关注
原创 随笔_一道二年级数学题引发的联想
计算只能发生在同类的东西之间,比如右上图是均值和均值算,右下是分数和分数算,左边的图到第三层的时候,均值和分数算,不是一种东西就没法放一起算了。
2017-12-30 12:31:28 557
原创 随笔_从《芳华》影评到TF/IDF算法
《芳华》的影评说:“为什么好人没好报?”我觉得应该叫:为什么中央空调不被看好?一个典型的TF/IDF算法问题。
2017-12-30 11:35:33 447
原创 随笔_写程序到底有多难
年少时学到的东西不再能支撑一生。需要不断地学习,不断把自己设定成后辈的身份,尽管年龄已不再是后辈,不只在知识层面,在心理层也是个挑战。
2017-12-28 18:16:52 688
原创 Python海量数据处理之_Hadoop家族
本篇是hadoop部分的最后一篇,主要介绍Hadoop家族的常用工具。以及解答学习过程中的一些疑问。
2017-12-27 17:33:08 730
原创 Python海量数据处理之_Hadoop(三)程序调用
前两篇分别介绍了Hadoop的配置方法和基本原理,本篇将介绍如何让程序借助Hadoop调用服务器集群中的算力。Hadoop是Java语言实现的,它不仅支持Java,还支持C++,Python等程序的分布计算。下面以Python为例介绍如何使用Hadoop的MapReduce功能。
2017-12-25 18:25:50 5247
原创 Python海量数据处理之_Hadoop(二)概念和原理
前篇介绍了Hadoop的安装,在安装过程中会产生一些疑问,比如NameNode是什么东西?本篇就以问题&解答的方式介绍Hadoop的相关概念及其原理。
2017-12-22 11:34:04 2335
原创 Python海量数据处理之_Hadoop(一)集群搭建
上篇《Python海量数据处理之_单机优化》讲述了单机的处理大数据的解决方案。下面将讲述如何利用服务器集群处理大数据,这里使用的工具是Hadoop,内容太多,分为三部分介绍,本篇是第一部分集群搭建,后两部分分别是原理和python调用。
2017-12-21 18:37:38 10011
原创 Python海量数据处理之_单机优化
数据处理时,可能会遇到数千万以及上亿条数据的情况。一次处理所有数据,会遇到内存不够,计算时间太长等问题。一般的解法是:先拆分,再处理,最后将处理的结果合并。本文将介绍在单机上,只使用Python如何处理大量数据。
2017-12-20 17:22:15 3134 2
原创 Python之DataFrame数据处理
DataFrame是Pandas库中处理表的数据结构,可看作是python中的类似数据库的操作,是Python数据挖掘中最常用的工具。下面介绍DataFrame的一些常用方法。
2017-12-18 17:00:32 56870 2
原创 实战微博互动预测之三_xgboost答疑解惑
具体算法还是使用xgboost库,之前看到的大多数关于xgboost的文章,要么是讲数学原理,要么是参数的中文说明,xgboost似乎还是一个黑盒,下面就结合具体问题看看xgboost的使用。
2017-12-15 17:37:16 2760 1
原创 实战微博互动预测之二_中文分析
计算得出的结论和人的经验类似:带表情的更容易得到反馈,自己写的更容易得到反馈(不带标题,不带链接),带链接的容易被转发,带@得到的反馈较少,正文长度与转发相关……
2017-12-12 18:14:52 2414
原创 实战微博互动预测之一_问题分析
新浪微博互动预测代表了现实中的一类应用:数据量大,需要参赛者提取特征,数据有现实中的意义,无规律数据占多数,可多维度分析...
2017-12-08 13:21:04 8904 3
原创 实战人品预测之二_热门模型xgboost
有人戏称数据挖掘比赛为GBDT调参大赛,因为在很多比赛后期,大家都使用GBDT类的算法,特征类似,只有模型参数不同,模型集成方法不同,最终大家的成绩差别也很小。
2017-12-06 11:19:34 1924
原创 实战人品预测之一_国内大数据竞赛平台
比赛的主题是通过数据挖掘来分析”小额微贷“申请借款用户的信用状况。提供的特征以x1,x2…表示,也就是说不知道各特征的具体意义。共1400个特征,带标签数据15000个,不带标签数据50000个,最终需要对5000个数据进行预测,上传预测结果,得到线上的AUC评分。
2017-12-05 19:56:17 1310
android文件管理器源码
2011-07-06
android将lib库打包成apk安装
2010-11-18
Android使用XML-RPC实现blog客户端源码
2010-10-29
MSN博客搬家工具的可执行程序和源码
2010-10-21
学习java编程(二)
2009-10-13
学习java编程(一)
2009-10-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人