2017年11月_accumulate_zhang

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月

转载 scikit-learn常用的一些函数及在实战中的用法

原文地址：http://blog.csdn.net/mmc2015/article/details/47079409零、所有项目通用的：http://blog.csdn.net/mmc2015/article/details/46851245（数据集格式和预测器）http://blog.csdn.net/mmc2015/article/d

2017-11-27 13:35:27 957

原创解决python3读取Python2存储的pickle文件

我在使用python3.5处理一个序列化文件xxx.pk，不过这个.pk文件是我在python2.7里面存储的，当我用python3读取的时候就会报如下的错误。import picklepicklefile=open('2ohsumed_wmd_d.pk','rb')data=pickle.load(picklefile)print (data)UnicodeDecodeErr

2017-11-21 22:32:46 7153 2

原创通俗理解LSTM的内部门操作（个人理解，可能不科学）

参考博客：http://www.jianshu.com/p/9dc9f41f0b29希望大家在阅读下面文字的时候，已经读完上面的文章了，因为下面的文字是根据上面文章来写的。首先，深度学习模型已经在各种研究领域中取得了很大的发展，主要说一下自己就CNN和RNN，LSTM模型的一些理解。（适合理解不透彻或者掌握不到精髓的读者，初学者可以看上面的博客，大神可以忽略）首

2017-11-19 21:38:52 9723 2

转载应该掌握的七种回归技术

转载地址：http://www.csdn.net/article/2015-08-19/2825492【编者按】回归分析是建模和分析数据的重要工具。本文解释了回归分析的内涵及其优势，重点总结了应该掌握的线性回归、逻辑回归、多项式回归、逐步回归、岭回归、套索回归、ElasticNet回归等七种最常用的回归技术及其关键要素，最后介绍了选择正确的回归模型的关键因素。什么是回归分析？

2017-11-14 09:30:01 439

转载 Python数据可视化-seaborn Seaborn

转载地址https://www.cnblogs.com/gczr/p/6767175.htmlPython数据可视化-seabornSeaborn其实是在matplotlib的基础上进行了更高级的API封装，从而使得作图更加容易，在大多数情况下使用seaborn就能做出很具有吸引力的图。这里实例采用的数据集都是seaborn提供的几个经典数据集，data

2017-11-13 10:37:52 1063

原创 LabelEncoder和OneHotEncoder 在特征工程中的应用

对于一些特征工程方面，有时会用到LabelEncoder和OneHotEncoder。比如kaggle中对于性别，sex，一般的属性值是male和female。两个值。那么不靠谱的方法直接用0表示male，用1表示female 了。上面说了这是不靠谱的。所以要用one-hot编码。首先我们需要用LabelEncoder把sex这个属性列里面的离散属性用数字来表示

2017-11-12 11:06:59 26455 5

转载 Yoon Kim的textCNN讲解，以及tensorflow实现，CNN文本分类

本文转载自:http://www.dataguru.cn/forum.php?mod=viewthread&tid=637971&extra=page=1&page=1Ox00: Motivation最近在研究Yoon Kim的一篇经典之作Convolutional Neural Networks for Sentence Classification，这篇文章可以说是

2017-11-11 09:17:13 12023 1

原创 Stacking 在机器学习中的应用，以kaggle titanic为例

之前自己玩了一下kaggle上的入门级别的比赛，泰坦尼克号生存预测。随便进行了简单的特征选择，直接用sklearn中的模型，直接跑结果，大概能跑到0.77左右。三千多名。近段时间稍微闲下来了，开始着手做一些机器学习相关的比赛。然后想着提升上次的模型，或者在社区看看别人用的是什么模型。然后看到一篇高票的文章。Introduction to Ensembling or St

2017-11-09 15:40:20 1216

转载 XGBoost详细了解

原文地址：Complete Guide to Parameter Tuning in XGBoost by Aarshay Jain 原文翻译与校对：@MOLLY && 寒小阳 (hanxiaoyang.ml@gmail.com) 时间：2016年9月。出处：http://blog.csdn.net/han_xiaoyang/article/details/52665396

2017-11-06 15:31:37 425

原创在win10下安装xgboost, python 为3.5

在做一些数据分析方面的小练习或者小竞赛，有个神器是xgboost，一直没有去了解或者投入到实战中，今天突然想起来，就查了一些资料把它安装起来，然后再继续去使用它。下面给出安装过程。1.首先在这个链接下，下载符合自己环境的xgboost安装包，https://www.lfd.uci.edu/~gohlke/pythonlibs/2.下载之后，你可以

2017-11-06 15:06:07 356

原创 numpy 进行数组的拼接，分别在行和列上合并

在进行数据分析的时候，会把把一些具有多个特征的样本数据进行拼接合并吗，放在一起分析，预测....下面是用numpy中的函数进行数组的拼接。（1）方法一。np.vstack() v 表示vertical 垂直，也就是竖着拼接和np.hstack() h表示Horizontal 横向（2）方法二，np.c_[array1,array2]

2017-11-05 21:14:50 58777 3

原创用numpy把一个矩阵的一行或一列删除，再把剩下的拼在一起

在分析数据的时候，需要把某个数据矩阵的一行或者一列删除掉.....

2017-11-05 20:36:03 25836

转载 numpy的基础用法

一.基础：Numpy的主要数据类型是ndarray，即多维数组。它有以下几个属性：ndarray.ndim：数组的维数 ndarray.shape：数组每一维的大小 ndarray.size：数组中全部元素的数量 ndarray.dtype：数组中元素的类型（numpy.int32, numpy.int16, and numpy.float64等） ndarray.

2017-11-05 20:24:15 2818

原创用gensim导入word2vec词向量bin文件，出现字符编码

首先抛出我遇到的问题。我训练了一个词向量文件，得到了一个二进制文件，model.bin，然后准备调用gensim来测试bin文件里面的词向量效果怎么样，于是就导入这个模型。import gensim# 导入模型model = gensim.models.KeyedVectors.load_word2vec_format('t8model.bin',binary=True)

2017-11-05 15:11:37 7025 10

原创 ubuntu的终端里面，随意点击就出现ctrl+C的效果，出现^C

ubuntu的终端里面，随意点击就出现ctrl+C的效果，出现^C今天在ubuntu上允许fastText时候，发现在终端输入命令的时候，或者正在运行的时候，随意拖动了一下终端窗口，或者随意的在屏幕上或者窗口上点击了一下，终端就直接终端了，就是直接出现按ctrl+C的效果了。查了一下原因，我的Ubuntu是在虚拟机里面，外面的主机里面开了一个程序，就是翻译软件，叫做

2017-11-02 22:49:39 6308 6

原创 python下os.path模块的常见用法

python中os.path常用模块1. os.path.sep:路径分隔符 linux下就用这个了’/’2. os.path.altsep: 根目录3. os.path.curdir:当前目录4. os.path.pardir：父目录5. os.path.abspath(path)：绝对路径6. os.path.join(): 常用来链接路径7. os.p

2017-11-01 10:48:21 440

转载 tensorflow中的优化器：优化器Optimizer

更新时间：2017.5.9简化了很多不需要的内容，关注重点。反正是要学一些API的，不如直接从例子里面学习怎么使用API，这样同时可以复习一下一些基本的机器学习知识。但是一开始开始和以前一样，先直接讲类和常用函数用法，然后举例子。这里主要是各种优化器，以及使用。因为大多数机器学习任务就是最小化损失，在损失定义的情况下，后面的工作就交给优化器啦。因为深度学

2017-11-01 10:03:42 2642

我们一起学习强化学习

强化学习入门好资料-《强化学习精要-TensorFlow代码实现》，强化学习入门，高清，有标签PDF，方便阅读

2019-04-24

Spark升级后无Logging类

在使用spark读取kafka数据时，当spark升级到2.0之后，出现如上问题：之前遇到了，当时在工程里面添加了org.apache.spark.Logging类，能够运行。

2018-11-06

程序员面试金典第6版，清晰，高清扫描，是金典，不是宝典

程序员面试金典，第六版，高清扫描，700多页，80多M的pdf文档

2018-01-11

(Yoav Goldberg)Neural Network Methods for Natural Language Processing适合nlp进阶

《(Yoav Goldberg)Neural Network Methods for Natural Language Processing》这是Yoav Goldberg的一本书，上面是最新的NLP相关技术，适合NLP的进阶学习。

2018-01-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人