- 博客(6)
- 资源 (1)
- 收藏
- 关注
原创 Windows环境下使用python selenium 打开Firefox的问题总结
Windows环境下使用python selenium 打开Firefox的问题总结
2016-09-23 14:50:44 4051 1
原创 CENTOS 7 中 硬盘临时文件夹tmp清理
在使用虚拟机的时候,发现系统挂载的硬盘已满,查询了一下,原来是因为先前跑爬虫的时候在 /tmp 里面留下了大量的临时文件。在centos 7 里面,关于tmp的清理是有 systemd-tmpfiles-clean.service 服务来管理的。详见这里如果要手动清理,可以使用如下指令# find /tmp -ctime +10 -exec rm {} +至于中间还有很多是文件夹无法删除,可以在 r
2016-09-21 14:39:09 7415
原创 利用sklearn做自然语言处理(NLP)——词向量特征构建
在自然语言处理中,第一步需要面对的就是词向量特征的提取。语言的特征提取在sklearn模块中有相当完善的方法和模块,而针对中文其实也可以同过分词软件做分词然后再按照英文文本的思路开展特征提取,机器学习。
2016-09-18 17:29:26 12328 1
原创 PANDAS 数据合并与重塑(join/merge篇)
在上一篇文章中,我整理了pandas在数据合并和重塑中常用到的concat方法的使用说明。在这里,将接着介绍pandas中也常常用到的join 和merge方法mergepandas的merge方法提供了一种类似于SQL的内存链接操作,官网文档提到它的性能会比其他开源语言的数据操作(例如R)要高效。和SQL语句的对比可以看这里merge的参数on:列名,join用来对齐的那一列的名字,用到这个参数的
2016-09-14 18:05:55 80671 9
原创 PANDAS 数据合并与重塑(concat篇)
pandas作者Wes McKinney 在【PYTHON FOR DATA ANALYSIS】中对pandas的方方面面都有了一个权威简明的入门级的介绍,但在实际使用过程中,我发现书中的内容还只是冰山一角。今天就pandas官网中关于数据合并和重述的章节做个人性质的总结。文中代码块主要有pandas官网教程提供。
2016-09-13 19:26:30 312190 15
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人