Scrapy 爬虫
极客小生
这个作者很懒,什么都没留下…
展开
-
Scrapy爬取知名网站的图书信息
本文用 Scrapy 爬虫框架爬取专门供爬虫初学者训练用的网站:http://books.toscrape.com/打开虚拟环境创建项目文件打开控制台输入workon py3scrapy进入虚拟环境所在盘我的是E盘创建项目文件输入scrapy startproject demo创建的项目文件叫demo查看项目目录下的文件输入treeF demo打开所爬取网站分析所爬取原创 2018-01-23 21:39:53 · 965 阅读 · 0 评论 -
Selenium+Scrapy爬取淘宝
好久不见,今天给大家分享如何用自动化工具selenium和scrapy框架来爬取淘宝。爬取网站时候的坑!刚开始爬的时候,就想着直接进入淘宝主页,然后用selenium工具自动一步步执行然后爬取到自己想得到的数据,然而!令我没想到的是,利用自动化工具可以对关键词进行抓取之类,但是很奇怪的是数据抓不下来,于是不得不对进入的链接进行修正。 通过观察得到了这样的网址['https://s...原创 2018-03-16 19:49:02 · 3358 阅读 · 1 评论 -
Scrapy爬取知名技术网站文章并保存为Json格式
之前是爬取单个页面的内容,今天对所有文章进行爬取。 所有文章文章的地址:http://blog.jobbole.com/all-posts/对所有文章的URL进行提取提取第一页URL用 Request 库对提取的URL交给scrapy下载然后调用自己定义的解析函数提取下一页URL把封面图下载下来配置 items设置 settingsSpider文件通过配置...原创 2018-02-05 18:52:47 · 2121 阅读 · 0 评论 -
Scrapy爬取知名技术网站文章并保存到MySQL数据库
之前的几篇文章都是在讲如何把数据爬下来,今天记录一下把数据爬下来并保存到MySQL数据库。 文章中有讲同步和异步两种方法。 所有文章文章的地址:http://blog.jobbole.com/all-posts/对所有文章的URL进行提取提取第一页URL用 Request 库对提取的URL交给scrapy下载然后调用自己定义的解析函数提取下一页URL把封面图...原创 2018-02-05 18:57:47 · 511 阅读 · 0 评论 -
模拟登陆改版后的知乎(最新版)
今天,想着看看视频,把模拟登陆这一块学习学习,以后弄把梯子,去爬爬FaceBook什么的。就拿知乎练练手吧,可曾想,知乎竟然改版了!!之前的教程书籍对现在的知乎来说,都是扯淡,连页面都找不到了。下面一起谈谈改版后的纸糊的模拟登陆吧。页面分析抓包首先,打开页面:https://www.zhihu.com/signup?next=%2F(登录网址都变了…),F12,输入账号...原创 2018-02-08 23:06:08 · 3597 阅读 · 3 评论 -
Scrapy网络爬虫系列教程(一) | Scrapy爬虫框架的开发环境搭建
本文主要介绍一下Scrapy爬虫框架的开发环境搭建。主要有: Python的安装,IDE的选择,MySQL及Navicat的安装,开发环境Virtualenv、Virtualenvwrapper的搭建以及Scrapy的安装。Python的安装IDE的选择MySQL的安装Navicat for MySQL的安装安装virtualenv打开控制台输入pip instal...原创 2018-01-21 22:08:13 · 3048 阅读 · 0 评论 -
Scrapy网络爬虫系列教程(二)| 提取网页上的内容
今天我们新建第一个爬虫程序,爬取[伯乐在线]网站上一个网页的内容。创建项目[按照上一篇文章所讲的,你已经建好一个虚拟环境并安装好了 scrapy] 首先,打开控制台,进入虚拟环境,输入 scrapy startproject jobbole 新建一个名字为 jobbole 的项目。 输入 tree/F jobbole 查看文件下的目录结构。│ scrapy.cfg│...原创 2018-02-11 16:21:52 · 790 阅读 · 0 评论 -
用CSS方法提取网页内容
昨天用xpath提取了网页内容,今天用CSS方法重新提取一遍。 随便在伯乐在线找一篇文章,网址:http://blog.jobbole.com/113555/ #通过CSS选择器提取网页的字段 #标题 title = response.css(".entry-header h1::text").extract_first() #发布日期原创 2018-02-04 16:30:35 · 2009 阅读 · 0 评论 -
用xpath方法提取网页内容保存为json格式
用Xpath方法提取网页内容保存为json格式 今天分享一下爬取知名技术网站的内容。网站地址:http://top.jobbole.com/38569/ 用xpath提取网页内容,最后将爬取的内容保存为json格式。用Xpath方法提取网页内容保存为json格式打开虚拟环境在 Scrapy shell 中调试提取标题文字按照上述方法对文章作者评论数点赞数等进行提取原创 2018-02-03 18:02:15 · 3984 阅读 · 0 评论 -
建立IP代理池存入MongoDB数据库
代码用的Python3.6,抓取xici免费代理,检测放入数据库中,为以后爬虫做准备。# -*- coding: utf-8 -*-import requestsfrom lxml import etreeimport timeimport randomimport pymongofrom multiprocessing import Pool # 多线程# ------...原创 2019-05-28 23:35:44 · 724 阅读 · 1 评论