![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
正则
nickname existed
嗯,暂属于小猴子,但是相信自己能变成一只程序猿!
展开
-
通过分析ajax,使用正则表达式爬取今日头条
今日头条是一个动态加载页面的网站,这一类的网站直接使用requests爬取的话得不到我们想要的内容。所以一般这类的网站都是通过分析ajax来进行抓包来获取我们想要的内容。 老规矩,首先列出需要引入的库: import json import os from urllib.parse import urlencode import pymongo import requests from bs...原创 2018-09-25 21:34:05 · 373 阅读 · 0 评论 -
分布式爬取顶点小说全站内容
这是一个简单的分布式爬虫,网站其实并不复杂,文章主要为了写一下分布式的布局。 首先使用命令 scrapy genspider -t crawl “爬虫名” 网址,创建一个爬虫。然后添加代码 from scrapy_redis.spiders import RedisCrawlSpider 引入RedisCrawlSpider,并让爬虫继承于此。删除start_urls,并在rules...原创 2018-10-23 20:19:31 · 356 阅读 · 0 评论