爬虫
Shanyt_
这个作者很懒,什么都没留下…
展开
-
爬虫 - 数据采集和解析
爬虫数据采集和解析数据采集1. 下载数据的方式 - urllib、requests、aiohttpurllib 用法from urllib.request import urlopenhtml = urlopen('http://sports.sohu.com/nba_a.shtml').read()requests用法import requestsresp ...原创 2018-06-08 11:22:23 · 2169 阅读 · 0 评论 -
爬虫多线程
定义多线程类, 爬虫类 爬取 m.sohu.com的内容import loggingfrom enum import unique, Enumfrom queue import Queuefrom random import randomfrom threading import current_thread, Threadfrom time import sleepfrom ...原创 2018-06-01 14:55:41 · 352 阅读 · 0 评论 -
scrapy 框架新建一个 爬虫项目详细步骤
利用scrapy框架新建一个爬虫项目,完整步骤如下:mkdir doubancd douban创建虚拟环境命名为venv, 代替了virtualenv --no-site-pages +virtual_namepython -m venv venv dir 看目录cd venv cd Scriptsactivate 启动虚拟环境cd ../../ 回到我的用户...原创 2018-06-09 11:23:40 · 2378 阅读 · 0 评论 -
爬虫 数据库中存取内容
使用redis 、 mongodb数据库中 存取 爬取页面的内容import pickleimport zlibfrom enum import Enum, uniquefrom hashlib import sha1from random import randomfrom threading import Thread, current_threadfrom time im...原创 2018-06-02 15:55:07 · 804 阅读 · 0 评论