![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
小白鸽
啥都会一点,啥都不精的半吊子程序员
展开
-
scrapy爬取小说(一)
最近想学习scrapy爬虫,先爬小说练练手。 安装scrapy pip install scrapy 新建novel项目 scrapy startproject novel 目录结构如下: 打开chrome查看网页源码 在命令端运行 scrapy shell https://www.booktxt.net/6_6453/ 输入 response.css("div#list dd a...原创 2019-02-18 19:23:39 · 680 阅读 · 0 评论 -
scrapy爬取小说(二)
根据上一章目录分析 今天继续分析每一章内容 chrome打开https://www.booktxt.net/6_6453/5235604.html分析 终端命令 scrapy shell https://www.booktxt.net/6_6453/5235604.html 输入命令 response.css("div.bookname h1::text").get() response原创 2019-02-19 11:14:09 · 1289 阅读 · 0 评论 -
scrapy selenium解析淘宝
淘宝页面是JS动态页面,需要selenium模仿chrome访问淘宝. 新建项目 scrapy startproject taobao cd taobao scrapy genspider example www.taobao.com 结构图下图: 安装selenium,并下载chromediver pip install -U selenium 编写middleware.py文件中Tao...原创 2019-02-28 18:29:27 · 807 阅读 · 0 评论 -
scrapy爬取小说(三)
根据上章scrapy爬取小说(二) 爬取的小说的章节是乱序的,所以需要章节排序。 使用Item和Pipeline对最终结果排序 修改items.py文件 import scrapy class NovelItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() ...原创 2019-02-20 10:43:59 · 1514 阅读 · 0 评论