Python
文章平均质量分 64
Casey_cai
这个作者很懒,什么都没留下…
展开
-
深度学习:基于 Gensim 的 Yelp 评论文本分类实例
通过 gensim 将词向量(Word2Vec)学习机运用于文本分类中,参考文献:Document Classification by Inversion of Distributed Language Representations(ACL 2015)。1、数据准备首先,我们需要到 kaggle 上的 Yelp recruiting contest 下载我们要用到的数据,可能需要注册并登陆自己的转载 2017-02-17 10:57:39 · 2204 阅读 · 1 评论 -
Python 中的缺失值及其处理
缺失值处理用到的主要工具为 Numpy 库和 Pandas库中的有关函数,要导入 Numpy 和 Pandas:import numpy as npimport pandas as pd在 Python 中,特殊的常量 None 通常被理解为缺失值的一种,我们构建了一个包含有 None 的 Numpy 数组 vals1:vals1 = np.array([1, None, 3, 4])vals1转载 2017-01-18 13:49:39 · 12371 阅读 · 0 评论 -
Python 中多层级数据的生成与索引
Python 中多层级数据的生成与索引方法基于 Pandas 和 Numpy 中的一些功能,首先我们需要导入这两个库:import pandas as pdimport numpy as np我们知道,Pandas 序列中的序号序列 index 是一个列表,这个列表可以由多个二元组构成,如下所示:index = [('California', 2000), ('California', 2010)转载 2017-01-20 10:54:21 · 2752 阅读 · 0 评论 -
使用 Pandas 分析网站访问日志
通过一个例子向大家演示如何运用 Pandas 来进行 Apache 访问日志分析。本文内容其实也是原作者对 Pandas 库的一次尝试。1、载入并解析数据在解析网站日志时需要用到 apachelog 模块 ,因此我们首先需要了解一下 Apache 配置中的日志相关格式,这里并不打算在这方面详细展开,如果你对此感兴趣的话,可以详细查阅一下 官方提供的格式描述。在此,我们对 Apache 配置格式进行一转载 2017-02-21 11:30:44 · 2193 阅读 · 0 评论 -
Python 数据集的合并:merge 与 join
向大家介绍数据集处理过程中的“合并”方法:merge 与 join,为了更好的演示相关操作,需要做一些准备工作,包括导入所需的 Pandas 库与 Numpy 库,以及构建方便于结果展示的 display 类:import pandas as pdimport numpy as npclass display(object): """Display HTML representation转载 2017-02-24 10:54:40 · 26191 阅读 · 0 评论 -
Python 数据集处理之连接与追加
向大家介绍数据集合并方法中的连接(concat)与追加(append),首先做一些准备工作:1.导入 Pandas 库与 Numpy 库:import pandas as pdimport numpy as np2.定义一个 make_df 函数,以便生成示例数据框:def make_df(cols, ind): """Quickly make a dataframe""" dat转载 2017-02-10 11:04:17 · 8480 阅读 · 0 评论