爬虫
爬虫
风清俊
山岗不惧清风拂,大海不忧江河截
展开
-
表格型数据的抓取与存储
在这里插入代码片原创 2020-10-30 08:35:42 · 331 阅读 · 0 评论 -
豆瓣top电影数据爬取至mongoDB数据库
通过scrapy框架将豆瓣top250电影信息数据进行爬取至数据库1.settings.py:爬虫配置信息# -*- coding: utf-8 -*-# Scrapy settings for crawlerprc01 project## For simplicity, this file contains only settings considered important or# commonly used. You can find more settings consulting t原创 2020-10-19 22:06:32 · 669 阅读 · 1 评论 -
糗事百科数据爬取至mongoDB数据库
一.基本爬虫的创建1.1.创建项目(cmd)scrapy startproject 项目名称1.2.创建爬虫(同一项目,爬虫名字唯一)cd 项目名称 # 项目所在路径(show in Explorer)scrapy genspider [爬虫名字] [爬虫的域名]1.3.项目的目录结构items.py:用来存放爬虫爬取下来的数据模型middlewares.py:用来存放各种中间件文件pipelines.py:用来将items的模型存储到本地磁盘settings.py:本爬虫的一些原创 2020-10-19 21:53:52 · 216 阅读 · 1 评论 -
scrapy框架基础学习之囧事百科
基础:一、安装scrapy框架pip install scrapypip --default-timeout=2000 install -U scrapy来下载scrapy让它的延迟检测时间变长。windows下,还需要安装 pip install pypiwin32二、创建项目和爬虫(同一项目,爬虫名字唯一)创建项目: scrapy startproject 项目名称创建传统爬虫...原创 2020-06-06 15:31:19 · 231 阅读 · 0 评论 -
爬虫小练习
import requestsimport reimport pymssqlimport timeimport db # 将创建的包导入(数据库连接)# 获取图片列表def getImagesList(page): url = 'https://www.doutula.com/photo/list/?page={}'.format(page) html = requ...原创 2020-03-10 22:59:33 · 183 阅读 · 0 评论