- 博客(17)
- 资源 (5)
- 收藏
- 关注
转载 scikit-learn常用的一些函数及在实战中的用法
原文地址:http://blog.csdn.net/mmc2015/article/details/47079409零、所有项目通用的:http://blog.csdn.net/mmc2015/article/details/46851245(数据集格式和预测器)http://blog.csdn.net/mmc2015/article/d
2017-11-27 13:35:27 957
原创 解决python3读取Python2存储的pickle文件
我在使用python3.5处理一个序列化文件xxx.pk,不过这个.pk文件是我在python2.7里面存储的,当我用python3读取的时候就会报如下的错误。import picklepicklefile=open('2ohsumed_wmd_d.pk','rb')data=pickle.load(picklefile)print (data)UnicodeDecodeErr
2017-11-21 22:32:46 7153 2
原创 通俗理解LSTM的内部门操作(个人理解,可能不科学)
参考博客:http://www.jianshu.com/p/9dc9f41f0b29希望大家在阅读下面文字的时候,已经读完上面的文章了,因为下面的文字是根据上面文章来写的。首先,深度学习模型已经在各种研究领域中取得了很大的发展,主要说一下自己就CNN和RNN,LSTM模型的一些理解。(适合理解不透彻或者掌握不到精髓的读者,初学者可以看上面的博客,大神可以忽略)首
2017-11-19 21:38:52 9723 2
转载 应该掌握的七种回归技术
转载地址:http://www.csdn.net/article/2015-08-19/2825492【编者按】回归分析是建模和分析数据的重要工具。本文解释了回归分析的内涵及其优势,重点总结了应该掌握的线性回归、逻辑回归、多项式回归、逐步回归、岭回归、套索回归、ElasticNet回归等七种最常用的回归技术及其关键要素,最后介绍了选择正确的回归模型的关键因素。什么是回归分析?
2017-11-14 09:30:01 439
转载 Python数据可视化-seaborn Seaborn
转载地址https://www.cnblogs.com/gczr/p/6767175.htmlPython数据可视化-seabornSeaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn就能做出很具有吸引力的图。这里实例采用的数据集都是seaborn提供的几个经典数据集,data
2017-11-13 10:37:52 1063
原创 LabelEncoder和OneHotEncoder 在特征工程中的应用
对于一些特征工程方面,有时会用到LabelEncoder和OneHotEncoder。比如kaggle中对于性别,sex,一般的属性值是male和female。两个值。那么不靠谱的方法直接用0表示male,用1表示female 了。上面说了这是不靠谱的。所以要用one-hot编码。首先我们需要用LabelEncoder把sex这个属性列里面的离散属性用数字来表示
2017-11-12 11:06:59 26455 5
转载 Yoon Kim的textCNN讲解,以及tensorflow实现,CNN文本分类
本文转载自:http://www.dataguru.cn/forum.php?mod=viewthread&tid=637971&extra=page=1&page=1Ox00: Motivation最近在研究Yoon Kim的一篇经典之作Convolutional Neural Networks for Sentence Classification,这篇文章可以说是
2017-11-11 09:17:13 12023 1
原创 Stacking 在机器学习中的应用,以kaggle titanic为例
之前自己玩了一下kaggle上的入门级别的比赛,泰坦尼克号生存预测。随便进行了简单的特征选择,直接用sklearn中的模型,直接跑结果,大概能跑到0.77左右。三千多名。近段时间稍微闲下来了,开始着手做一些机器学习相关的比赛。然后想着提升上次的模型,或者在社区看看别人用的是什么模型。然后看到一篇高票的文章。Introduction to Ensembling or St
2017-11-09 15:40:20 1216
转载 XGBoost详细了解
原文地址:Complete Guide to Parameter Tuning in XGBoost by Aarshay Jain 原文翻译与校对:@MOLLY && 寒小阳 (hanxiaoyang.ml@gmail.com) 时间:2016年9月。 出处:http://blog.csdn.net/han_xiaoyang/article/details/52665396
2017-11-06 15:31:37 425
原创 在win10下安装xgboost, python 为3.5
在做一些数据分析方面的小练习或者小竞赛,有个神器是xgboost,一直没有去了解或者投入到实战中,今天突然想起来,就查了一些资料把它安装起来,然后再继续去使用它。下面给出安装过程。1.首先在这个链接下,下载符合自己环境的xgboost安装包,https://www.lfd.uci.edu/~gohlke/pythonlibs/2.下载之后,你可以
2017-11-06 15:06:07 356
原创 numpy 进行数组的拼接,分别在行和列上合并
在进行数据分析的时候,会把把一些具有多个特征的样本数据进行拼接合并吗,放在一起分析,预测....下面是用numpy中的函数进行数组的拼接。(1)方法一。np.vstack() v 表示vertical 垂直,也就是竖着拼接 和np.hstack() h表示Horizontal 横向(2)方法二,np.c_[array1,array2]
2017-11-05 21:14:50 58777 3
转载 numpy的基础用法
一.基础:Numpy的主要数据类型是ndarray,即多维数组。它有以下几个属性:ndarray.ndim:数组的维数 ndarray.shape:数组每一维的大小 ndarray.size:数组中全部元素的数量 ndarray.dtype:数组中元素的类型(numpy.int32, numpy.int16, and numpy.float64等) ndarray.
2017-11-05 20:24:15 2818
原创 用gensim导入word2vec词向量bin文件,出现字符编码
首先抛出我遇到的问题。我训练了一个词向量文件,得到了一个二进制文件,model.bin,然后准备调用gensim来测试bin文件里面的词向量效果怎么样,于是就导入这个模型。import gensim# 导入模型model = gensim.models.KeyedVectors.load_word2vec_format('t8model.bin',binary=True)
2017-11-05 15:11:37 7025 10
原创 ubuntu的终端里面,随意点击就出现ctrl+C的效果,出现^C
ubuntu的终端里面,随意点击就出现ctrl+C的效果,出现^C今天在ubuntu上允许fastText时候,发现在终端输入命令的时候,或者正在运行的时候,随意拖动了一下终端窗口,或者随意的在屏幕上或者窗口上点击了一下,终端就直接终端了,就是直接出现按ctrl+C的效果了。查了一下原因,我的Ubuntu是在虚拟机里面,外面的主机里面开了一个程序,就是翻译软件,叫做
2017-11-02 22:49:39 6308 6
原创 python下os.path模块的常见用法
python中os.path常用模块1. os.path.sep:路径分隔符 linux下就用这个了’/’2. os.path.altsep: 根目录3. os.path.curdir:当前目录4. os.path.pardir:父目录5. os.path.abspath(path):绝对路径6. os.path.join(): 常用来链接路径7. os.p
2017-11-01 10:48:21 440
转载 tensorflow中的优化器:优化器Optimizer
更新时间:2017.5.9简化了很多不需要的内容,关注重点。反正是要学一些API的,不如直接从例子里面学习怎么使用API,这样同时可以复习一下一些基本的机器学习知识。但是一开始开始和以前一样,先直接讲类和常用函数用法,然后举例子。 这里主要是各种优化器,以及使用。因为大多数机器学习任务就是最小化损失,在损失定义的情况下,后面的工作就交给优化器啦。 因为深度学
2017-11-01 10:03:42 2642
Spark升级后无Logging类
2018-11-06
(Yoav Goldberg)Neural Network Methods for Natural Language Processing适合nlp进阶
2018-01-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人