![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python
文章平均质量分 62
阿农安贵人
计算机软件从业中,现在传统IT企业工作。
展开
-
Python Robot Framework使用小结
最近项目需要研究了一下 Python Robot Framework,跳了一些坑。现在总结一下,以方便呢是加强记忆,另一方面呢是希望看到这个blog的同学能避免再次跳坑。原创 2017-04-18 10:54:21 · 7262 阅读 · 1 评论 -
数据分析实例 USDA 数据
观察,检验基本的数据。并将USDA的数据整合到一张大表中,方便后面的切块,聚合,图形化等工作1. 观察并检验数据, 数据集一般都很多大,我们要先观察和检验一小部分数据,总结规律db[0].keys() // 查看输入的json的所有keysdb[0]['nutrients'][0] // 查看第一条数据的nutrients字段的第一个值pd.DataFrame(db[0][...原创 2018-09-11 15:29:48 · 893 阅读 · 0 评论 -
Linux 上安装 python
Step to install python on Linux system下载python源码包并解压缩$ wget https://www.python.org/ftp/python/3.6.3/Python-3.6.3.tar.xztar xf Python-3.*进入到文件夹 build源码cd Python-3.*#Prepare compilati...原创 2018-08-01 23:48:39 · 181 阅读 · 0 评论 -
词向量 - 实际动手使用word2vec
在自然语言处理的任务中,无论哪种算法都需要将文本形态的词转换成为向量形式的词向量(word embedding)。良好的词向量可以达到语义相近的词在词向量空间里聚集在一起,这对后续的文本分类,文本聚类等等算法提供良好的数据样本,本文将详细介绍如何使用word2vec构建中文词向量这里所需要用到的包,这些包需要首先使用pip或者conda安装jiabagensimsklearn...原创 2018-07-31 15:41:21 · 2380 阅读 · 1 评论 -
统计词频并可视化
最近参加一个NLP的竞赛,赛方提供了10万条数据。由于是脱敏数据,所以作NLP之前需要先作word2vec,这时就需要将标点符号和无意义的词(比如“的”)去掉,我们采用的方法就是去掉高频词,所以首先要找到高频词。 如何找到高频词呢, 这里当然可以使用dict了,但是有没有更高级一点的方法呢。当然有了,我们可以使用collections的Counter,并且使用Pandas来替代读取数据的解析...原创 2018-07-21 22:49:45 · 3444 阅读 · 1 评论 -
MxBorad的简单使用
最近在使用MxNet,但是MxNet原生并没有提供一个类似于TensorBoard的可视化工具,所以之前一直matplotlib来画学习图。最近看到了MxNet出了一个MxBorad的工具,可以让MxNet可视化,真神器。下面介绍一个如何使用安装安装很简单分两步 * 第一步需要首先安装mxboard pip install mxboard * 第二步需要安装 pip install...原创 2018-06-30 20:38:50 · 638 阅读 · 0 评论 -
Pandas 使用技巧(二)
处理丢失数据由np.nan 填充丢失的数据df.dropna(axis=0, how='any')axis 根据行或者列丢弃,0 是行,1是列how,指定丢弃行为any,只要有一个nan就丢弃,,默认all,所有的都为nan才丢弃df.fillna(value=0), 为nan填上数据value, 指定需要填入的数据其他相关方法df.isnu...原创 2018-06-25 15:52:38 · 207 阅读 · 0 评论 -
use os.walk to get all file under a path
直接上代码,如何看如何使用os.walkbase_path = "/nihao/records.inc/2018/"for parent, dir_names, file_names in os.walk(base_path): for file_name in file_names: file_path = os.path.join(parent, file_n...原创 2018-06-17 22:23:57 · 141 阅读 · 0 评论 -
ipfile 和gzip的区别,巧用gzip读取文本文件
最近需要处理linux下的gz问题,发现有两个各相似的包好像都可以处理gz,但是使用上又有一些区别 zipfile可以处理zip压缩包,将多个文件压缩到一个压缩包中,或者从压缩包中读取其中的各个文件使用的时候需要先创建zipfile对象,然后使用zip对象的open方法打开文件并进行读写使用open方法的时候需要传入file_path, 这个path可以使用file_obj.n...原创 2018-06-17 22:23:03 · 933 阅读 · 0 评论 -
Pandas 使用技巧(一)
Pandas 的列表pd.Series([1,2,3,4])它会为每一个数据设置一个序号 dtype,列表中数据的格式DataFrame:Pandas 的矩阵, 在Pandas中叫做DataFrame, 它是一个大的矩阵类似于二维的numpy, 数据为numpy的数据,但是为每行指定索引和每一列指定索引,结构类似于通常意义的表。dates = pd.date_ra...原创 2018-06-17 22:22:17 · 381 阅读 · 0 评论 -
Numpy 使用技巧
numpy的基本属性,基于矩阵的运算最简答的初始化:array=np.array([[1,2,3], [2,3,4]])array.ndim, 返回是一维数组还是二维数组array.shape 返回shape,是一个元组,第一个是行,第二个是列array.size 返回元素的数目创建arraynp.array([], dtype=np.int) 直接使用lis...原创 2018-06-29 14:46:28 · 246 阅读 · 0 评论 -
如何在Django admin中编辑ManyToManyField
如何定义多对多关系Django 本身自带了一个很强大的ORM,支持自定义model并将其映射到数据库的表中 model中可以定义各种类型的数据,比较直观的比如整形, 字符型,也可以定义外键 ForeignKey来指定一对多关系。 关系数据库中有一种多对多的关系,在Django的ORM中也支持它,使用ManyToManyField.下面使用EmailGroup和Email来展示如何使用...原创 2018-06-20 18:55:44 · 3726 阅读 · 0 评论 -
使用Python访问软连接
使用Python访问软连接python怎么找到符号链接指向的目录转载 2017-06-13 15:54:13 · 6857 阅读 · 1 评论 -
安装Paramiko遇到的问题以及解决方法
CentOS中安装Paramiko遇到的问题以及解决方法原创 2017-06-13 15:34:06 · 3305 阅读 · 2 评论 -
URLLIB3 基本用法
基本用法Request您需要一个PoolManager实例来发出请求。 此对象处理连接池和线程安全的所有详细信息: 1. 创建一个poolManager 2. 使用poolManager的request()发送数据包 它的返回是是一个HTTPResponse对象,可以使用这个request发送各种格式的HTTP请求 PoolManager —- 允许任意请求,同时透明地跟踪您所...翻译 2018-09-13 16:02:48 · 2107 阅读 · 0 评论