实战
MxyDevil
这个作者很懒,什么都没留下…
展开
-
多线程爬去糗事百科
import queueimport threadingfrom fake_useragent import UserAgentimport timeimport requestsfrom requests.exceptions import RequestExceptionfrom lxml import etreeimport json# 2个队列# 两个线程类# 爬虫...原创 2019-02-23 16:33:13 · 170 阅读 · 0 评论 -
获取淘宝商品数据
使用selenium3+bs4思路:淘宝网址,如果通过selenium去访问,就会要求我们登录,我们可以让程序睡一会,自己手动扫码登录,就可以获取到商品的网页数据了,然后通过bs4解析获得商品数据。import timefrom selenium import webdriverfrom bs4 import BeautifulSoupclass SpiderProduct(obje...原创 2019-02-24 14:26:36 · 2035 阅读 · 0 评论 -
Scrapy+bs4爬取京东商品信息
Scrapy+bs4爬取京东商品信息把数据存储到Redis里面spiders下的爬虫文件# -*- coding: utf-8 -*-import scrapyfrom bs4 import BeautifulSoupfrom jd.items import JdItemfrom scrapy_redis.spiders import RedisSpiderclass Good...原创 2019-03-01 20:05:02 · 1673 阅读 · 0 评论 -
Scrapy+bs4爬取京东商品对应的评论信息
Scrapy+bs4爬取京东商品对应的评论信息spiders/comm.py# -*- coding: utf-8 -*-import jsonimport jsonpathimport scrapyfrom bs4 import BeautifulSoupfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spi...原创 2019-03-01 20:12:35 · 819 阅读 · 1 评论