data mining
文章平均质量分 59
Jinlong_Xu
talk is cheap, show me code!
展开
-
数据挖掘笔试题(二)
数据挖掘笔试题(二) 1、深度学习是当前很热门的机器学习算法。在深度学习中,涉及到大量矩阵相乘,现在需要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为m*n,n*p,p*q,且mA、A(BC)B、(AB)CC、(AC)BD、所有效率都相同解析:首先根据基原创 2017-03-28 09:57:53 · 2019 阅读 · 0 评论 -
数据挖掘笔试题(一)
数据挖掘笔试题(一)晚饭后,突然有些兴致,想刷刷题,就去了牛客网做题。虽然战况惨烈,但是还是发现了一些有意思的题。基础很重要,基础很重要,基础很重要!!!重要的事说三遍。以下说法中正确的是()A、SVM对噪声(如来自其他分布的噪声样本)鲁棒B、在AdaBoost算法中,所有被分错的样本的权重更新比例相同C、Boosting和Bagging都是组合多个分类器投票的方法,二原创 2017-03-26 20:06:33 · 3741 阅读 · 0 评论 -
【浪叫兽】京东JData算法赛经验总结
申明:本文由浪叫兽对京东JData算法大赛的总结,行文略微口语化,但是不得不说,真正琢磨过数据的人才能发 现更多内在的东西。Mark,学习一下。0.055规则很简单的,就是type5 大于 2,就这一条就可以了。我们搞的是kdd,主要是知识发现,所以大多是重复 eda(探索分析) etl(数据清洗),数据清洗和探索,使用现有的数据挖掘框架。重头戏还是在eda转载 2017-04-03 17:45:35 · 11464 阅读 · 2 评论 -
【网易游戏——数据分析/数据挖掘/BI】暑期实习生笔试(中大专场)——2017/04/13
今天下午参加了网易游戏春招/实习生招聘(中大专场)的笔试,同时也打算记录一下自己做到的笔试题,在这里分享给大家。 首先要吐槽的一点是,中大的限外令真的很严。还好我带校园卡了,同学忘拿了,直接回宿舍拿的。同时,即使是网易游戏的工作人员也不得不打报告,上面同意才放进来的。第二点,为啥网易游戏的数据挖掘居然不考算法?在这里,提醒各位想做数据挖掘算法的小伙伴,不太建议投网易游戏的原创 2017-04-13 22:47:35 · 9308 阅读 · 0 评论 -
【Python-matplotlib】subplot2grid()函数的简单示例
今天看到一个画图函数觉得挺有意思的,就试了一下。直接上代码片段:ax1 = plt.subplot2grid((3,3), (0,0), colspan=3)ax2 = plt.subplot2grid((3,3), (1,0), colspan=2)ax3 = plt.subplot2grid((3,3), (1, 2), rowspan=2)ax4 = plt.subplot2g原创 2017-04-14 13:04:55 · 13467 阅读 · 1 评论 -
【matplotlib】plot()kind参数表
在这里我介绍一下plot方法的函数的使用。Series.plot方法的函数:参数说明label用于图例的标签ax要在其上进行绘制的matplotlib subplot对象。如果没有设置,则使用当前matplotlib subplotstyle将要传给matplotlib的风格原创 2017-04-14 18:40:48 · 40311 阅读 · 1 评论 -
【Python-matplotlib】画直方图(hist)
首先要理清楚一个概念,直方图与条形图。直方图与条形图的区别:条形图是用条形的长度表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义。由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。条形图主要用于展示分类数据,而直方图则主要用于展示数据型数据原创 2017-04-15 11:26:14 · 53026 阅读 · 0 评论 -
优化:一种将交叉验证(CV)速度提升10倍的方法
Python 2.7IDE Pychrm 5.0.3sci-kit learn 0.18.1前言抖了个机灵,不要来打我,这是没有理论依据证明的,只是模型测试出来的确有效,并且等待时间下降(约)为原来的十分之一!!刺不刺激,哈哈哈。原理基本思想:先找重点在细分,再细分,伸缩Flexible你怕不怕。以下简称这种方法为FCV不知道转载 2017-05-11 16:04:53 · 3473 阅读 · 0 评论 -
XML文件结构和基本语法
XML文件结构和基本语法分类: html java2010-03-12 17:04 903人阅读 评论(1) 收藏 举报4.1.1 XML文件结构一个XML文件通常包含文件头和文件体两大部分1. 文件头XML文件头由XML声明与DTD文件类型声明组成。其中DTD文件类型声明是可以缺少的,关于DTD声明将在后续的内容中介绍,而XML声明是必须要有的,以使文件符转载 2017-05-31 22:48:56 · 610 阅读 · 0 评论 -
ipython notebook 的详细介绍
介绍ipython notebook¶1.简单介绍ipython notebook的安装和使用,在ubuntu上:sudo apt-get install ipython但是并不是所有的版本都支持notebook功能,本人的系统安装的是0.13的版本有notebook,但是有个重要的功能没有,什么功能等会再说,所以本人手动安装的ipython 1.1.0版本,你可以转载 2017-07-05 09:50:05 · 16583 阅读 · 0 评论 -
报错 ImportError: No module named 'geohash' 的解决办法
最近有个“摩拜杯”算法大赛,看了下数据,发现里面的起点和终点都进行了编码,需要用geohsah来解码成坐标。先介绍一下安装geohash:pip install geohash显示安装成功:然后我发现import 模块的时候是会报错的:我的解决方法是:1、将Geohash文件夹改成geohash;2、将文件夹下的 __init__原创 2017-06-27 19:53:02 · 5476 阅读 · 4 评论 -
主流机器学习模型模板代码+经验分享[xgb, lgb, Keras, LR]
摘要最近打各种比赛,在这里分享一些General Model,稍微改改就能用的环境: python 3.5.2XGBoost调参大全: http://blog.csdn.net/han_xiaoyang/article/details/52665396 XGBoost 官方API: http://xgboost.readthedocs.io/en/latest/转载 2017-12-20 13:21:32 · 5792 阅读 · 0 评论 -
matplotlib绘图中中文显示乱码问题的解决方案
实验环境是linux 16.10, Python3.6,其他平台应该也一样。没试过,大家可以去试试看,应该差不多。1. 正确下载字体文件simhei.ttf点击下载字体2. 将上面下载的文件copy到matplotlib里的对应目录,我的目录是~/anaconda3/lib/python3.6/site-packages/matplotlib原创 2018-01-07 21:36:14 · 980 阅读 · 0 评论 -
在Python 2.7即将停止支持时,我们为你准备了一份3.x迁移指南
目前,Python 科学栈中的所有主要项目都同时支持 Python 3.x 和 Python 2.7,不过,这种情况很快即将结束。去年 11 月,Numpy 团队的一份声明引发了数据科学社区的关注:这一科学计算库即将放弃对于 Python 2.7 的支持,全面转向 Python 3。Numpy 并不是唯一宣称即将放弃 Python 旧版本支持的工具,pandas 与 Jupyter noteb转载 2018-01-29 19:50:33 · 4208 阅读 · 0 评论 -
scikit-learn Preprocessing data
scikit-learn Preprocessing data 本文主要是对照scikit-learn的preprocessing章节结合代码简单的回顾下预处理技术的几种方法,主要包括标准化、数据最大最小缩放处理、正则化、特征二值化和数据缺失值处理。内容比较简单,仅供参考!首先来回顾一下下面要用到的基本知识。一、知识回顾均值公式:原创 2017-03-26 15:44:30 · 642 阅读 · 0 评论 -
机器学习 特征工程之特征选择
机器学习 特征工程之特征选择 概念首先看一下维基百科中关于特征选择的介绍:在机器学习和统计学中,特征选择 也被称为变量选择、属性选择 或变量子集选择 。它是指:为了构建模型而选择相关特征(即属性、指标)子集的过程。在机器学习中,每个特征对于目标类别的影响并不相同,所以需要从特征集中挑选出一组最具统计意义的特征子集,把其他无用数据删掉,达到降维的目的。特征选择的目标是寻找最优转载 2017-03-26 15:38:11 · 2169 阅读 · 0 评论 -
十分钟入门Matplotlib
十分钟入门Matplotlib 数据的处理、分析和可视化已经成为 Python 近年来最重要的应用之一。这种现象又进一步引出“大数据”分析等类似的话题,而大数据分析在人们所能预见的诸多领域内都有广泛应用,这其中就包含笔者个人感兴趣的机器学习。Python 在处理数据、分析数据以及数据可视化方面拥有很多功能强大的工具,这也是 Python 在科学领域中能够迅速发展的一个主要原因。在接转载 2017-03-28 20:56:10 · 2664 阅读 · 0 评论 -
一文学会 Python 多线程编程
一文学会 Python 多线程编程 Threading 模块从 Python 1.5.2 版开始出现,用于增强底层的多线程模块thread 。Threading 模块让操作多线程变得更简单,并且支持程序同时运行多个操作。注意,Python 中的多线程最好用于处理有关 I/O 的操作,如从网上下载资源或者从本地读取文件或者目录。如果你要做的是 CPU 密集型操作,那么你需要使用 Py转载 2017-03-28 21:08:54 · 2736 阅读 · 0 评论 -
Python多进程编程入门
Python多进程编程入门 多进程(multiprocessing)模块是在 Python 2.6 版本加入的。它最初由 Jesse Noller 和 Richard Oudkerk 在PEP 371 中定义。multiprocessing 模块生成进程的方式就和你使用 threading 模块生成线程是一样的。但是在这里,因为你使用的是多进程,所以你可以规避全局解释锁(GIL),充分转载 2017-03-28 21:16:49 · 1123 阅读 · 0 评论 -
DataCastle[猜你喜欢]赛事算法分享
DataCastle[猜你喜欢]赛事算法分享关于竞赛DC的小伙伴们大家好,我是Yes,boy! ,来自东北大学计算机学院。在猜你喜欢推荐系统竞赛中,很幸运以7.89465的得分取得第一名,看到大家在群里对推荐系统的热情很高,所以在这里我简单介绍下竞赛中我的思路。本次比赛的赛题背景是给出了约3400万条数据,包含一个商品网站站内顾客在某一时刻对某一个商品的打分值,分值范围为1至5转载 2017-03-29 09:09:38 · 842 阅读 · 0 评论 -
数据城堡参赛代码实战篇(一)---手把手教你使用pandas
数据城堡参赛代码实战篇(一)---手把手教你使用pandas小编们最近参加了数据城堡( http://www.pkbigdata.com/ )举办的“大学生助学金精准资助预测 ”比赛,分组第19名的成绩进入了复赛,很激动有木有!在上一篇文章中,小编带大家回顾了参赛的心路历程,虽然看上去生动有趣,十分轻松,但是小编们在背后也是付出了不少的汗水呀。本篇,小编文文将带你一起分析如何用pa转载 2017-03-23 21:48:19 · 4001 阅读 · 14 评论 -
pandas学习(一)
最近在做JData算法大赛,作为一个新手,第一次参加这样的比赛,还处于没入门的状态,但是还是希望可以慢慢做,慢慢玩数据,来提高自己。其中有一个数据文件——JData_Action_1604, 这是一个用户行为文件,我看在数据的时候,第一个用户User_id——100259在短短的时间内就出现了很多的交互(行为)。为此,我想提取出在JData_Action_1604文件中有关User_id—原创 2017-03-31 13:00:42 · 516 阅读 · 0 评论 -
XGBoost-安装(Windows/VS2015)
XGBoost-安装(Windows/VS2015)昨天想装theano的时候,误删了之前的一些Python包,导致xgboost无法使用。索性重新安装了anaconda平台,方便自己后续的使用。 Anaconda是python科学计算的集成。使用起来给人matlab的感觉。并且预装了numpy,scipy,matplotlib,pandas, scikit-learn等多个常转载 2017-03-31 19:40:05 · 877 阅读 · 0 评论 -
XGBoost-Python完全调参指南-介绍篇
XGBoost-Python完全调参指南-介绍篇 在analytics vidhya上看到一篇<Complete Guide to Parameter Tuning in XGBoost inPython>,写的很好。因此打算翻译一下这篇文章,也让自己有更深的印象。具体内容主要翻译文章的关键意思。原文见:http://www.analyticsvidhya.com/blog/2转载 2017-03-31 19:43:14 · 690 阅读 · 0 评论 -
XGBoost-Python完全调参指南-参数解释篇
XGBoost-Python完全调参指南-参数解释篇 在analytics vidhya上看到一篇<Complete Guide to Parameter Tuning in XGBoost inPython>,写的很好。因此打算翻译一下这篇文章,也让自己有更深的印象。具体内容主要翻译文章的关键意思。原文见:http://www.analyticsvidhya.com/转载 2017-03-31 19:45:28 · 825 阅读 · 0 评论 -
十分钟搞定pandas
本文是对pandas 官方网站上《10 Minutes to pandas》的一个简单的翻译,原文在这里 。这篇文章是对pandas的一个简单的介绍,详细的介绍请参考: Cookbook 。习惯上,我们会按下面格式引入所需要的包:一、创建对象可以通过 Data Structure Intro Setion 来查看有关该节内容的详细信息。 1、可以通过转载 2017-03-24 20:05:28 · 862 阅读 · 0 评论 -
pandas常用函数
pandas常用函数 import numpy as np import pandas as pd import matplotlib.pyplot as plt ---------------numpy----------------------- arr = np.array([1,2,3], dtype=np.float6转载 2017-03-31 22:48:45 · 2785 阅读 · 0 评论 -
【MySQL】基础篇 - 创建数据库并插入数据
这篇文章主要介绍 MySQL 新建数据库,新建表,插入数据以及基本数据类型的相关知识。我们接下来将创建一个名为 mysql_shiyan 的数据库,其中包含两张表 employee 和 department。一、新建数据库首先,我们创建一个数据库,取名为 mysql_shiyan , 语句的格式为 CREATE DATABASE ;创建成功后输入命令 show databas原创 2017-04-02 15:54:00 · 1976 阅读 · 0 评论 -
【京东—数据挖掘/深度学习】电话面试——2017/04/11
昨天下午六点多接到京东成都研究院HR的电话通知,告诉我,明天(11号)下午四点到六点之间会有电话面试,要我提前做好准备。之前投的时候,意向岗位是数据挖掘岗位。没想到居然过了简历关,进入到了电面。第一次面试自然要好好准备一下。就回顾一下常见的数据挖掘的算法,还有之前做过的项目。觉得自己准备的差不多了,到了四点就一直守在电话前等着,一直没来电话,我就等到五点十分左右,然后来了电话。原创 2017-04-11 18:37:48 · 2908 阅读 · 0 评论 -
Python数据分析笔记——Numpy、Pandas库
Python数据分析笔记——Numpy、Pandas库 Numpy库Numpy最重要的一个特点是就是其N维数组对象,即ndarray,ndarray是一个通用的同构数据多维容器,其中的所有元素必须是相同类型的。每个数组都有一个shape(一个表示各维度大小的元组,即表示有几行几列)和dtype(一个用于说明数组数据类型的对象)。本节将围绕ndarray数组展开。转载 2017-03-26 13:22:08 · 2435 阅读 · 0 评论 -
python seaborn画图
python seaborn画图在做分析时候,有时需要画几个图看看数据分布情况,但总记不住python的绘图函数。今天有空顺便整理下python的seaborn绘图函数库。 Seaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn就能做出很具有吸引力的图,而使用matplotlib能制作具有更多特色的图。应该把Seaborn...转载 2018-03-31 15:39:09 · 3612 阅读 · 0 评论