爬虫
小白鸽
啥都会一点,啥都不精的半吊子程序员
展开
-
scrapy爬取小说(一)
最近想学习scrapy爬虫,先爬小说练练手。安装scrapypip install scrapy新建novel项目scrapy startproject novel 目录结构如下:打开chrome查看网页源码在命令端运行scrapy shell https://www.booktxt.net/6_6453/ 输入response.css("div#list dd a...原创 2019-02-18 19:23:39 · 688 阅读 · 0 评论 -
scrapy爬取小说(二)
根据上一章目录分析今天继续分析每一章内容chrome打开https://www.booktxt.net/6_6453/5235604.html分析终端命令scrapy shell https://www.booktxt.net/6_6453/5235604.html输入命令response.css("div.bookname h1::text").get()response原创 2019-02-19 11:14:09 · 1297 阅读 · 0 评论 -
scrapy selenium解析淘宝
淘宝页面是JS动态页面,需要selenium模仿chrome访问淘宝.新建项目scrapy startproject taobaocd taobaoscrapy genspider example www.taobao.com结构图下图:安装selenium,并下载chromediverpip install -U selenium 编写middleware.py文件中Tao...原创 2019-02-28 18:29:27 · 824 阅读 · 0 评论 -
scrapy爬取小说(三)
根据上章scrapy爬取小说(二)爬取的小说的章节是乱序的,所以需要章节排序。使用Item和Pipeline对最终结果排序修改items.py文件import scrapyclass NovelItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() ...原创 2019-02-20 10:43:59 · 1553 阅读 · 0 评论