2017年03月_Jinlong_Xu

转载 pandas常用函数

pandas常用函数 import numpy as np import pandas as pd import matplotlib.pyplot as plt ---------------numpy----------------------- arr = np.array([1,2,3], dtype=np.float6

2017-03-31 22:48:45 2749

转载 XGBoost-Python完全调参指南-参数解释篇

XGBoost-Python完全调参指南-参数解释篇在analytics vidhya上看到一篇<Complete Guide to Parameter Tuning in XGBoost inPython>,写的很好。因此打算翻译一下这篇文章，也让自己有更深的印象。具体内容主要翻译文章的关键意思。原文见：http://www.analyticsvidhya.com/

2017-03-31 19:45:28 813

转载 XGBoost-Python完全调参指南-介绍篇

XGBoost-Python完全调参指南-介绍篇在analytics vidhya上看到一篇<Complete Guide to Parameter Tuning in XGBoost inPython>,写的很好。因此打算翻译一下这篇文章，也让自己有更深的印象。具体内容主要翻译文章的关键意思。原文见：http://www.analyticsvidhya.com/blog/2

2017-03-31 19:43:14 673

转载 XGBoost-安装(Windows/VS2015)

XGBoost-安装(Windows/VS2015)昨天想装theano的时候，误删了之前的一些Python包，导致xgboost无法使用。索性重新安装了anaconda平台，方便自己后续的使用。 Anaconda是python科学计算的集成。使用起来给人matlab的感觉。并且预装了numpy，scipy，matplotlib,pandas, scikit-learn等多个常

2017-03-31 19:40:05 865

原创 pandas学习（一）

最近在做JData算法大赛，作为一个新手，第一次参加这样的比赛，还处于没入门的状态，但是还是希望可以慢慢做，慢慢玩数据，来提高自己。其中有一个数据文件——JData_Action_1604，这是一个用户行为文件，我看在数据的时候，第一个用户User_id——100259在短短的时间内就出现了很多的交互（行为）。为此，我想提取出在JData_Action_1604文件中有关User_id—

2017-03-31 13:00:42 507

原创 Verilog用于模块的测试

Verilog用于模块的测试Verilog可以用来描述变化的测试信号，描述测试信号的变化和测试过程的模块也称为testbench。在这里，我写一个示例，大家能明白该怎么写了。首先要写功能模块——二选一多路选择器。代码如下：`timescale 1ns / 1ps////////////////////////////////////////////////////////////

2017-03-29 19:33:59 10298 1

转载 DataCastle［猜你喜欢］赛事算法分享

DataCastle［猜你喜欢］赛事算法分享关于竞赛DC的小伙伴们大家好，我是Yes,boy! ，来自东北大学计算机学院。在猜你喜欢推荐系统竞赛中，很幸运以7.89465的得分取得第一名，看到大家在群里对推荐系统的热情很高，所以在这里我简单介绍下竞赛中我的思路。本次比赛的赛题背景是给出了约3400万条数据，包含一个商品网站站内顾客在某一时刻对某一个商品的打分值，分值范围为1至5

2017-03-29 09:09:38 821

转载 Python多进程编程入门

Python多进程编程入门多进程(multiprocessing)模块是在 Python 2.6 版本加入的。它最初由 Jesse Noller 和 Richard Oudkerk 在PEP 371 中定义。multiprocessing 模块生成进程的方式就和你使用 threading 模块生成线程是一样的。但是在这里，因为你使用的是多进程，所以你可以规避全局解释锁(GIL)，充分

2017-03-28 21:16:49 1109

转载一文学会 Python 多线程编程

一文学会 Python 多线程编程 Threading 模块从 Python 1.5.2 版开始出现，用于增强底层的多线程模块thread 。Threading 模块让操作多线程变得更简单，并且支持程序同时运行多个操作。注意，Python 中的多线程最好用于处理有关 I/O 的操作，如从网上下载资源或者从本地读取文件或者目录。如果你要做的是 CPU 密集型操作，那么你需要使用 Py

2017-03-28 21:08:54 2728

转载十分钟入门Matplotlib

十分钟入门Matplotlib 数据的处理、分析和可视化已经成为 Python 近年来最重要的应用之一。这种现象又进一步引出“大数据”分析等类似的话题，而大数据分析在人们所能预见的诸多领域内都有广泛应用，这其中就包含笔者个人感兴趣的机器学习。Python 在处理数据、分析数据以及数据可视化方面拥有很多功能强大的工具，这也是 Python 在科学领域中能够迅速发展的一个主要原因。在接

2017-03-28 20:56:10 2649

原创数据挖掘笔试题（二）

数据挖掘笔试题（二） 1、深度学习是当前很热门的机器学习算法。在深度学习中，涉及到大量矩阵相乘，现在需要计算三个稠密矩阵A,B,C的乘积ABC，假设三个矩阵的尺寸分别为m*n,n*p,p*q,且mA、A(BC)B、(AB)CC、(AC)BD、所有效率都相同解析：首先根据基

2017-03-28 09:57:53 1998

原创数据挖掘笔试题（一）

数据挖掘笔试题（一）晚饭后，突然有些兴致，想刷刷题，就去了牛客网做题。虽然战况惨烈，但是还是发现了一些有意思的题。基础很重要，基础很重要，基础很重要！！！重要的事说三遍。以下说法中正确的是()A、SVM对噪声(如来自其他分布的噪声样本)鲁棒B、在AdaBoost算法中,所有被分错的样本的权重更新比例相同C、Boosting和Bagging都是组合多个分类器投票的方法,二

2017-03-26 20:06:33 3722

原创 scikit-learn Preprocessing data

scikit-learn Preprocessing data 本文主要是对照scikit-learn的preprocessing章节结合代码简单的回顾下预处理技术的几种方法，主要包括标准化、数据最大最小缩放处理、正则化、特征二值化和数据缺失值处理。内容比较简单，仅供参考！首先来回顾一下下面要用到的基本知识。一、知识回顾均值公式：

2017-03-26 15:44:30 636

转载机器学习特征工程之特征选择

机器学习特征工程之特征选择概念首先看一下维基百科中关于特征选择的介绍：在机器学习和统计学中，特征选择也被称为变量选择、属性选择或变量子集选择。它是指：为了构建模型而选择相关特征（即属性、指标）子集的过程。在机器学习中，每个特征对于目标类别的影响并不相同，所以需要从特征集中挑选出一组最具统计意义的特征子集，把其他无用数据删掉，达到降维的目的。特征选择的目标是寻找最优

2017-03-26 15:38:11 2153

转载 Python数据分析笔记——Numpy、Pandas库

Python数据分析笔记——Numpy、Pandas库 Numpy库Numpy最重要的一个特点是就是其N维数组对象，即ndarray，ndarray是一个通用的同构数据多维容器，其中的所有元素必须是相同类型的。每个数组都有一个shape（一个表示各维度大小的元组，即表示有几行几列）和dtype（一个用于说明数组数据类型的对象）。本节将围绕ndarray数组展开。

2017-03-26 13:22:08 2390

转载十分钟搞定pandas

本文是对pandas 官方网站上《10 Minutes to pandas》的一个简单的翻译，原文在这里。这篇文章是对pandas的一个简单的介绍，详细的介绍请参考： Cookbook 。习惯上，我们会按下面格式引入所需要的包：一、创建对象可以通过 Data Structure Intro Setion 来查看有关该节内容的详细信息。 1、可以通过

2017-03-24 20:05:28 854

转载数据城堡参赛代码实战篇（一）---手把手教你使用pandas

数据城堡参赛代码实战篇（一）---手把手教你使用pandas小编们最近参加了数据城堡（ http://www.pkbigdata.com/ ）举办的“大学生助学金精准资助预测 ”比赛，分组第19名的成绩进入了复赛，很激动有木有！在上一篇文章中，小编带大家回顾了参赛的心路历程，虽然看上去生动有趣，十分轻松，但是小编们在背后也是付出了不少的汗水呀。本篇，小编文文将带你一起分析如何用pa

2017-03-23 21:48:19 3972 14

原创 Python2.x和Python3.x区别

最近总是遇到一些烦心的事情，比如用Python3.5来写一些代码，有些不太懂的地方，就去网上找答案，却发现很多都是基于python2.x的。今天我就来说点遇到的一些问题。Unicode 字符串在Python2中，普通字符串是以8位ASCII码进行存储的，而Unicode字符串则存储为16位unicode字符串，这样能够表示更多的字符集。使用的语法是在字

2017-03-13 22:06:02 1514

原创【sklearn】数据预处理（一）

一般来说，我们搜集到的数据因为种种原因都会出现缺失值，通常而言，我们有几种常见的解决方法，一种解决方法是直接去掉这些包含缺失值的行，不得不说这样的做法或多或少会影响到我们的后续的数据分析，特别是对数据量小的情况。因此我们要采用更好的策略来填充缺失的数据，例如通过已知的数据来推测。Imputer提供了基本的填充方法，例如使用均值或者中位数填充，当然也有人使用众数，具体的你可以根据你的数据来定。

2017-03-11 15:35:50 642

原创【pandas】对矩阵的某一行、某一列进行求和

昨天一位朋友问我，矩阵的某一行列怎么求和？我也是初学者，但是觉得碰到问题就去解决，抱着这样的心态，就去想这个问题了。首先我们肯定要有一个矩阵，所以我就用用生成随机数的方法生成了一个随机数矩阵。显示一下我们生成的矩阵：我们可以看一下我们的矩阵的维度：我尝试了一下直接用sum()函数：我

2017-03-10 10:45:22 95308 2

Jinlong_Xu的博客