爬虫学习
黑码
这个作者很懒,什么都没留下…
展开
-
分布式爬虫项目(开发手册)
1.安装docker 安装最简单版本的 docker sudo apt install docker.io sudo apt-get update 2.用了这么一个镜像 docker pull markadams/chromium-xvfb-py2 这个镜像包含了python+selenium+chrome 省去了配置selenium+chromedriver的麻烦 提醒一下 服务器的安全组记得方形 6379 3.安装redis apt-get install redis-server vi /etc/r.原创 2020-06-11 16:31:13 · 425 阅读 · 0 评论 -
scrapy实战之爬取简书
这一节,我们利用scrapy来爬取简书整站的内容。对于一篇文章详情页面,我们发现许多内容是Ajax异步加载的,所以使用传统方式返回的response里并没有我们想要的数据,例如评论数,喜欢数等等。对于动态数据请求,我们使用selenium+chromedriver来完成 1.到淘宝镜像https://npm.taobao.org/mirrors/chromedriver选择对应的chromedr...原创 2020-02-22 09:25:37 · 952 阅读 · 1 评论 -
scrapy 随机设置请求头和ip代理池中间件
Request和Response都会首先经过中间件,所以我们在中间件中定义需要添加的header和params crapy中最重要的的两个类Response和Request from scrapy import Request class Request(object_ref): def __init__(self, url, callback=None, method='GE...原创 2020-02-22 09:20:43 · 674 阅读 · 0 评论 -
爬虫学习 scrapy 入门
这篇文章转载于:https://blog.csdn.net/Hampton_Chen/article/details/81147110这里作为简便的记录 基础知识:xpath的基本用法 :https://blog.csdn.net/manongpengzai/article/details/77109600 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括...转载 2020-02-10 21:02:47 · 268 阅读 · 0 评论 -
爬虫学习笔记(3)
网络爬虫之实战 1正则表达式 2 淘宝商品比价定向爬虫 3 股票数据定向爬虫 4.1正则表达式 正则表达式语法由字符和操作符构成 常用操作符 . 表示任何单个字符 [ ] 字符集,对单个字符给出取值范围[abc]表示a、b、c,[a‐z]表示a到z单个字符 [^ ] 非字符集,对单个字符给出排除范围[^abc]表示非a或b或c的单个字符 * 前一个字符0次或无限次扩展abc* 表示ab、...原创 2020-02-08 17:28:59 · 688 阅读 · 0 评论 -
爬虫学习笔记(2)
网络爬虫规则之提取 1 Beautiful Soup库入门 2 信息组织与提取 3 实例:大学排名爬取 Beautiful Soup库,也叫beautifulsoup4 或bs4 约定引用方式如下,即主要是用BeautifulSoup类 import bs4 from import bs4 from BeautifulSoup 4种解析器: soup = BeautifulSoup(‘&...原创 2020-02-08 17:19:07 · 211 阅读 · 0 评论 -
爬虫学习笔记(1)
网络爬虫规则 1 Requests库 自动爬取html页面 2robots.txt 网络爬虫排除标准 3 实战项目 我用的操作系统ubuntu + pycharm + anaconda 在网上搜教程即可安装好,利用conda下载 requests 库,在pycharm 中配置anaconda 作为编译器环境即可 #requests库7个主要方法: a、requests.request...原创 2020-02-08 17:00:26 · 338 阅读 · 0 评论