爬虫
陈伦(colby)
项目经理/数据架构师/资深数据从业者。
熟悉传统数据、互联网数据处理,精通数据仓库方法论、数据迁移、数据处理、数据可视化、数据建模、架构设计、方案设计,曾负责多个数仓项目0到1建设并落地,有PB级数据调优实战经验!
曾获得计算机四级数据库证书、PMP项目管理专业人士证书等。
展开
-
Python之Scrapy框架Redis实现分布式爬虫详解
1、创建scrapy工程 scrapy startproject youboy 2、scrapy工程目录介绍 │ main.py #爬虫程序入口cmdline.execute("scrapy crawl youboySpider".split()) │ scrapy.cfg └─spider_youboy │ items.py #定义要存储的字段,原创 2017-09-29 14:45:04 · 3734 阅读 · 3 评论 -
Python爬虫代理IP结合BeautifulSoup MongoDB
安装包准备: pymongo、BeautifulSoup 实现代码 #coding=utf-8 import requests import pymongo from bs4 import BeautifulSoup from conf.config import * from multiprocessing import Pool client=pymongo.MongoCli...原创 2019-08-28 17:29:26 · 386 阅读 · 0 评论