- 博客(5)
- 收藏
- 关注
原创 shell命令
1、每隔一秒打印进程信息 目的:用于检测自动重启服务 for ((i=0;i<1000;++i));do ps -fe| grep python;sleep 1;echo "==================";done 2、kill掉进程名为python的进程 目的:用于删除名为python的多个进程,常用场景:多进程...
2019-01-19 14:46:35
92
原创 Windows 安装 npm 及 cnpm
【工具官网】Node.js : http://nodejs.cn/淘宝NPM: https://npm.taobao.org/ 【安装步骤】一、安装node.js1.前往node.js官网下载并安装工具,这里安装路径选到D盘,D:\Program Files\nodejs 安装完毕在命令行输入以下命令测试是否安装成功,正确会出现版本号 1 ...
2019-01-04 19:16:20
92
原创 如何用item pipeline(管道)清洗数据
管道是什么Item管道(Item Pipeline):主要负责处理有蜘蛛从网页中抽取的Item,主要任务是清洗、验证和存储数据。当页面被蜘蛛解析后,将被发送到Item管道,并经过几个特定的次序处理数据。每个Item管道的组件都是有一个简单的方法组成的Python类。它们获取了Item并执行它们的方法,同时还需要确定是否需要在Item管道中继续执行下一步或是直接丢弃掉不处理。类(Clas...
2018-10-23 14:26:57
394
原创 newspaper3k,用法
------安装pip install newspaper3k------用法from newspaper import Article ---------#导入模块以下是newspaper简单用法url = 'http://news.ifeng.com/a/20180504/58107235_0.shtml'news = Article(url, language=...
2018-10-22 19:07:19
751
原创 scrapy 编码格式
response.body.decode(编码格式)------例:response.body.decode('utf8')decode的作用是解决中文编码问题
2018-10-20 08:26:12
1469
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人