爬虫
Shanyt_
这个作者很懒,什么都没留下…
展开
-
爬虫 - 数据采集和解析
爬虫数据采集和解析 数据采集 1. 下载数据的方式 - urllib、requests、aiohttp urllib 用法 from urllib.request import urlopen html = urlopen('http://sports.sohu.com/nba_a.shtml').read() requests用法 import requests resp ...原创 2018-06-08 11:22:23 · 2173 阅读 · 0 评论 -
爬虫多线程
定义多线程类, 爬虫类 爬取 m.sohu.com的内容 import logging from enum import unique, Enum from queue import Queue from random import random from threading import current_thread, Thread from time import sleep from ...原创 2018-06-01 14:55:41 · 356 阅读 · 0 评论 -
scrapy 框架新建一个 爬虫项目详细步骤
利用scrapy框架新建一个爬虫项目,完整步骤如下: mkdir douban cd douban 创建虚拟环境命名为venv, 代替了virtualenv --no-site-pages +virtual_name python -m venv venv dir 看目录 cd venv cd Scripts activate 启动虚拟环境 cd ../../ 回到我的用户...原创 2018-06-09 11:23:40 · 2384 阅读 · 0 评论 -
爬虫 数据库中存取内容
使用redis 、 mongodb数据库中 存取 爬取页面的内容 import pickle import zlib from enum import Enum, unique from hashlib import sha1 from random import random from threading import Thread, current_thread from time im...原创 2018-06-02 15:55:07 · 810 阅读 · 0 评论