自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 资源 (1)
  • 收藏
  • 关注

原创 Windows环境下使用python selenium 打开Firefox的问题总结

Windows环境下使用python selenium 打开Firefox的问题总结

2016-09-23 14:50:44 4051 1

原创 CENTOS 7 中 硬盘临时文件夹tmp清理

在使用虚拟机的时候,发现系统挂载的硬盘已满,查询了一下,原来是因为先前跑爬虫的时候在 /tmp 里面留下了大量的临时文件。在centos 7 里面,关于tmp的清理是有 systemd-tmpfiles-clean.service 服务来管理的。详见这里如果要手动清理,可以使用如下指令# find /tmp -ctime +10 -exec rm {} +至于中间还有很多是文件夹无法删除,可以在 r

2016-09-21 14:39:09 7415

原创 PYTHON 3 爬虫出现<urlopen error no host given> 问题

python3爬虫手把手教python官方手册

2016-09-20 17:33:48 19222

原创 利用sklearn做自然语言处理(NLP)——词向量特征构建

在自然语言处理中,第一步需要面对的就是词向量特征的提取。语言的特征提取在sklearn模块中有相当完善的方法和模块,而针对中文其实也可以同过分词软件做分词然后再按照英文文本的思路开展特征提取,机器学习。

2016-09-18 17:29:26 12328 1

原创 PANDAS 数据合并与重塑(join/merge篇)

在上一篇文章中,我整理了pandas在数据合并和重塑中常用到的concat方法的使用说明。在这里,将接着介绍pandas中也常常用到的join 和merge方法mergepandas的merge方法提供了一种类似于SQL的内存链接操作,官网文档提到它的性能会比其他开源语言的数据操作(例如R)要高效。和SQL语句的对比可以看这里merge的参数on:列名,join用来对齐的那一列的名字,用到这个参数的

2016-09-14 18:05:55 80671 9

原创 PANDAS 数据合并与重塑(concat篇)

pandas作者Wes McKinney 在【PYTHON FOR DATA ANALYSIS】中对pandas的方方面面都有了一个权威简明的入门级的介绍,但在实际使用过程中,我发现书中的内容还只是冰山一角。今天就pandas官网中关于数据合并和重述的章节做个人性质的总结。文中代码块主要有pandas官网教程提供。

2016-09-13 19:26:30 312190 15

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除