- 博客(5)
- 收藏
- 关注
原创 shell命令
1、每隔一秒打印进程信息 目的:用于检测自动重启服务 for ((i=0;i<1000;++i));do ps -fe| grep python;sleep 1;echo "==================";done 2、kill掉进程名为python的进程 目的:用于删除名为python的多个进程,常用场景:多进程...
2019-01-19 14:46:35 92
原创 Windows 安装 npm 及 cnpm
【工具官网】 Node.js : http://nodejs.cn/ 淘宝NPM: https://npm.taobao.org/ 【安装步骤】 一、安装node.js 1.前往node.js官网下载并安装工具,这里安装路径选到D盘,D:\Program Files\nodejs 安装完毕在命令行输入以下命令测试是否安装成功,正确会出现版本号 1 ...
2019-01-04 19:16:20 92
原创 如何用item pipeline(管道)清洗数据
管道是什么 Item管道(Item Pipeline): 主要负责处理有蜘蛛从网页中抽取的Item,主要任务是清洗、验证和存储数据。 当页面被蜘蛛解析后,将被发送到Item管道,并经过几个特定的次序处理数据。 每个Item管道的组件都是有一个简单的方法组成的Python类。 它们获取了Item并执行它们的方法,同时还需要确定是否需要在Item管道中继续执行下一步或是直接丢弃掉不处理。 类(Clas...
2018-10-23 14:26:57 394
原创 newspaper3k,用法
------安装 pip install newspaper3k ------用法 from newspaper import Article ---------#导入模块 以下是newspaper简单用法 url = 'http://news.ifeng.com/a/20180504/58107235_0.shtml' news = Article(url, language=...
2018-10-22 19:07:19 751
原创 scrapy 编码格式
response.body.decode(编码格式)------例: response.body.decode('utf8') decode的作用是解决中文编码问题
2018-10-20 08:26:12 1470 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人