自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 资源 (5)
  • 收藏
  • 关注

转载 scikit-learn常用的一些函数及在实战中的用法

原文地址:http://blog.csdn.net/mmc2015/article/details/47079409零、所有项目通用的:http://blog.csdn.net/mmc2015/article/details/46851245(数据集格式和预测器)http://blog.csdn.net/mmc2015/article/d

2017-11-27 13:35:27 957

原创 解决python3读取Python2存储的pickle文件

我在使用python3.5处理一个序列化文件xxx.pk,不过这个.pk文件是我在python2.7里面存储的,当我用python3读取的时候就会报如下的错误。import picklepicklefile=open('2ohsumed_wmd_d.pk','rb')data=pickle.load(picklefile)print (data)UnicodeDecodeErr

2017-11-21 22:32:46 7150 2

原创 通俗理解LSTM的内部门操作(个人理解,可能不科学)

参考博客:http://www.jianshu.com/p/9dc9f41f0b29希望大家在阅读下面文字的时候,已经读完上面的文章了,因为下面的文字是根据上面文章来写的。首先,深度学习模型已经在各种研究领域中取得了很大的发展,主要说一下自己就CNN和RNN,LSTM模型的一些理解。(适合理解不透彻或者掌握不到精髓的读者,初学者可以看上面的博客,大神可以忽略)首

2017-11-19 21:38:52 9720 2

转载 应该掌握的七种回归技术

转载地址:http://www.csdn.net/article/2015-08-19/2825492【编者按】回归分析是建模和分析数据的重要工具。本文解释了回归分析的内涵及其优势,重点总结了应该掌握的线性回归、逻辑回归、多项式回归、逐步回归、岭回归、套索回归、ElasticNet回归等七种最常用的回归技术及其关键要素,最后介绍了选择正确的回归模型的关键因素。什么是回归分析?

2017-11-14 09:30:01 437

转载 Python数据可视化-seaborn Seaborn

转载地址https://www.cnblogs.com/gczr/p/6767175.htmlPython数据可视化-seabornSeaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn就能做出很具有吸引力的图。这里实例采用的数据集都是seaborn提供的几个经典数据集,data

2017-11-13 10:37:52 1061

原创 LabelEncoder和OneHotEncoder 在特征工程中的应用

对于一些特征工程方面,有时会用到LabelEncoder和OneHotEncoder。比如kaggle中对于性别,sex,一般的属性值是male和female。两个值。那么不靠谱的方法直接用0表示male,用1表示female 了。上面说了这是不靠谱的。所以要用one-hot编码。首先我们需要用LabelEncoder把sex这个属性列里面的离散属性用数字来表示

2017-11-12 11:06:59 26449 5

转载 Yoon Kim的textCNN讲解,以及tensorflow实现,CNN文本分类

本文转载自:http://www.dataguru.cn/forum.php?mod=viewthread&tid=637971&extra=page=1&page=1Ox00: Motivation最近在研究Yoon Kim的一篇经典之作Convolutional Neural Networks for Sentence Classification,这篇文章可以说是

2017-11-11 09:17:13 12023 1

原创 Stacking 在机器学习中的应用,以kaggle titanic为例

之前自己玩了一下kaggle上的入门级别的比赛,泰坦尼克号生存预测。随便进行了简单的特征选择,直接用sklearn中的模型,直接跑结果,大概能跑到0.77左右。三千多名。近段时间稍微闲下来了,开始着手做一些机器学习相关的比赛。然后想着提升上次的模型,或者在社区看看别人用的是什么模型。然后看到一篇高票的文章。Introduction to Ensembling or St

2017-11-09 15:40:20 1215

转载 XGBoost详细了解

原文地址:Complete Guide to Parameter Tuning in XGBoost by Aarshay Jain 原文翻译与校对:@MOLLY && 寒小阳 (hanxiaoyang.ml@gmail.com) 时间:2016年9月。 出处:http://blog.csdn.net/han_xiaoyang/article/details/52665396 

2017-11-06 15:31:37 425

原创 在win10下安装xgboost, python 为3.5

在做一些数据分析方面的小练习或者小竞赛,有个神器是xgboost,一直没有去了解或者投入到实战中,今天突然想起来,就查了一些资料把它安装起来,然后再继续去使用它。下面给出安装过程。1.首先在这个链接下,下载符合自己环境的xgboost安装包,https://www.lfd.uci.edu/~gohlke/pythonlibs/2.下载之后,你可以

2017-11-06 15:06:07 356

原创 numpy 进行数组的拼接,分别在行和列上合并

在进行数据分析的时候,会把把一些具有多个特征的样本数据进行拼接合并吗,放在一起分析,预测....下面是用numpy中的函数进行数组的拼接。(1)方法一。np.vstack()  v 表示vertical  垂直,也就是竖着拼接  和np.hstack() h表示Horizontal  横向(2)方法二,np.c_[array1,array2]  

2017-11-05 21:14:50 58680 3

原创 用numpy把一个矩阵的一行或一列删除,再把剩下的拼在一起

在分析数据的时候,需要把某个数据矩阵的一行或者一列删除掉.....

2017-11-05 20:36:03 25832

转载 numpy的基础用法

一.基础:Numpy的主要数据类型是ndarray,即多维数组。它有以下几个属性:ndarray.ndim:数组的维数 ndarray.shape:数组每一维的大小 ndarray.size:数组中全部元素的数量 ndarray.dtype:数组中元素的类型(numpy.int32, numpy.int16, and numpy.float64等) ndarray.

2017-11-05 20:24:15 2817

原创 用gensim导入word2vec词向量bin文件,出现字符编码

首先抛出我遇到的问题。我训练了一个词向量文件,得到了一个二进制文件,model.bin,然后准备调用gensim来测试bin文件里面的词向量效果怎么样,于是就导入这个模型。import gensim# 导入模型model = gensim.models.KeyedVectors.load_word2vec_format('t8model.bin',binary=True)

2017-11-05 15:11:37 7024 10

原创 ubuntu的终端里面,随意点击就出现ctrl+C的效果,出现^C

ubuntu的终端里面,随意点击就出现ctrl+C的效果,出现^C今天在ubuntu上允许fastText时候,发现在终端输入命令的时候,或者正在运行的时候,随意拖动了一下终端窗口,或者随意的在屏幕上或者窗口上点击了一下,终端就直接终端了,就是直接出现按ctrl+C的效果了。查了一下原因,我的Ubuntu是在虚拟机里面,外面的主机里面开了一个程序,就是翻译软件,叫做

2017-11-02 22:49:39 6295 6

原创 python下os.path模块的常见用法

python中os.path常用模块1. os.path.sep:路径分隔符 linux下就用这个了’/’2. os.path.altsep: 根目录3. os.path.curdir:当前目录4. os.path.pardir:父目录5. os.path.abspath(path):绝对路径6. os.path.join(): 常用来链接路径7. os.p

2017-11-01 10:48:21 437

转载 tensorflow中的优化器:优化器Optimizer

更新时间:2017.5.9简化了很多不需要的内容,关注重点。反正是要学一些API的,不如直接从例子里面学习怎么使用API,这样同时可以复习一下一些基本的机器学习知识。但是一开始开始和以前一样,先直接讲类和常用函数用法,然后举例子。 这里主要是各种优化器,以及使用。因为大多数机器学习任务就是最小化损失,在损失定义的情况下,后面的工作就交给优化器啦。 因为深度学

2017-11-01 10:03:42 2642

我们一起学习强化学习

强化学习入门好资料-《强化学习精要-TensorFlow代码实现》,强化学习入门,高清,有标签PDF,方便阅读

2019-04-24

Spark升级后无Logging类

在使用spark读取kafka数据时,当spark升级到2.0之后,出现如上问题:之前遇到了,当时在工程里面添加了org.apache.spark.Logging类,能够运行。

2018-11-06

程序员面试金典第6版,清晰,高清扫描,是金典,不是宝典

程序员面试金典,第六版,高清扫描,700多页,80多M的pdf文档

2018-01-11

(Yoav Goldberg)Neural Network Methods for Natural Language Processing适合nlp进阶

《(Yoav Goldberg)Neural Network Methods for Natural Language Processing》这是Yoav Goldberg的一本书,上面是最新的NLP相关技术,适合NLP的进阶学习。

2018-01-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除