- 博客(5)
- 收藏
- 关注
原创 淘宝商品页爬取
之前的脚本很基础,都是针对于静态网页的爬取。本文将以淘宝为例,运用selenium+chrome(headless)模拟浏览器,解决JS渲染问题,爬取商品信息并存储至MongoDB库中。(最新版selenium中已无法使用phatomjs,所以使用chrome的无头模式替代之。)IDE推荐使用Pycharm,安装教程Pycharm;安装MongoDB,安装教程MongDB 。安装ROBOMongo...
2018-05-02 14:03:39 284
原创 多进程抓取猫眼电影榜单(解释python下为何多核选用多进程)
因为GIL(Global Interpreter Lock(全局解释器锁))存在,且一个CPU同一时间只能执行一个线程(单核多线程为并发而非并行)。每个线程执行方式:获取GIL →I/O或操作达到阈值 → 释放GILCPU密集操作,计数快速达到阈值,然后触发GIL的释放与再竞争(多个线程切换需消耗资源),所以多线程对CPU密集型代码并不友好。 IO密集操作,IO操作会进行IO等待,开...
2018-04-24 15:37:13 212
原创 轻小说搜索及下载(基于8wenku)-python
基于之前的脚本,添加了小说名关键字搜索功能。可匹配8wenku内所有的轻小说。主要问题!!!暂不能识别图片,遇到则报错,暂使用关键字暴力跳过(导致匹配内容不全)其次(暂不能按卷保存;日后改进;)追加:捕获主体内容内的 'img src =' 即可识别出图片 跳过即可;对于一些gbk编码的字符,在cmd下,使用print函数时会报错。对于正则表达式,一点个人的收获: .*为贪婪匹配,直接匹配 . 前...
2018-04-18 10:37:47 2473
原创 Windows下python安装、环境配置、pip安装及第三方模块下载
万里之行,始于足下。对于专业人士来说,这篇文章的内容可能会很基础。但是对于非专业的人来说,安装软件不难,但是如何配置环境以及如何使用pip下载python第三方模块,还是有必要说明。在Windows下,python安装非常简单,只需注意匹配自己的系统版本以及安装目录最好全英文以及目录名不带空格。python安装完毕后。 在控制面板 → 系统和安全 → 系统 → 高级系统设置 → 高级 → 环境变量...
2018-04-18 10:15:58 532
原创 入门爬虫(函数封装)-Python
以面向过程的思维,第一个入门爬虫。运用模块:requests,os,re。第一个爬虫,仅体验爬虫乐趣。所以指定访问url,没有采用bs4模块,没有函数封装,亦没有编写为对象。日后会对本脚本改进。仅仅是分享第一个简单爬虫的乐趣XD。思路为:1.解析url(requests模块) 2.得到源码text 3.正则过滤text(re模块) 4.下载信息 5.清洗信息 6.信息...
2018-04-17 11:10:54 574
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人