python爬虫
文章平均质量分 91
一个喜欢林俊杰的靓仔
日常分享
展开
-
天天基金数据采集
from lxml import etreefrom selenium import webdriverimport timefrom selenium.webdriver.support.ui import Select,WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.common.by import Byimport pymysqlcla原创 2020-05-28 12:17:20 · 2567 阅读 · 0 评论 -
scrapy-redis爬虫简单搭建
在原来普通scrapy项目的基础上修改和新增如下几个地方即可在settings.py配置文件新增:DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"SCHEDULER = "scrapy_redis.scheduler.Scheduler"SCHEDULER_ORDER = 'BFO'SCHEDULER_PERSIST ...原创 2020-04-25 18:56:08 · 229 阅读 · 0 评论 -
selenium+chromedriver集成到scrapy框架
项目结构:qsbk_scrapy_selenium.py# -*- coding: utf-8 -*-import scrapyfrom pydispatch import dispatcherfrom scrapy import signalsfrom selenium import webdriverfrom scrapy_selenium.items import Scra...原创 2020-04-19 15:34:48 · 296 阅读 · 0 评论 -
scrapy相关综合
为什么使用scrapy?scrapy是一个比较重的框架,每次运行起来都要等待一段时间,因此每次要次验证我们提取数据的规则是否正确是一件很麻烦的事,所以scrapy提供了shell脚本,其中一个功能就可以方便我们来测试提取的数据。...原创 2020-04-18 20:30:18 · 147 阅读 · 0 评论 -
crawlSpider的介绍以及实战应用
1.CrawlSpider介绍crawlspider是Spider的派生类(一个子类),Spider类的设计原则是只爬取start_url列表中的网页,而CrawlSpider类定义了一些规则(rule)来提供跟进link的方便的机制,从爬取的网页中获取link并继续爬取数据。...原创 2020-04-15 12:07:59 · 348 阅读 · 0 评论 -
使用scrapy框架爬取糗事百科全部段子数据
项目结构:qsbk_spider.py# -*- coding: utf-8 -*-import scrapy#爬虫开始 scrapy crawl qsbk_spiderfrom qsbk.items import QsbkItemclass QsbkSpiderSpider(scrapy.Spider): # 爬虫名称 name = 'qsbk_spide...原创 2020-04-12 20:51:28 · 529 阅读 · 0 评论 -
python爬虫之爬取拉勾职位列表以及职位详情(selenium+chrome)
from lxml import etreefrom selenium import webdriverimport timeimport refrom selenium.webdriver.support.ui import Select,WebDriverWaitfrom selenium.webdriver.support import expected_conditions as...原创 2020-04-06 18:27:26 · 253 阅读 · 0 评论 -
python爬虫之爬取拉勾网职位信息
import jsonimport timeimport requestsimport csv# 1. 创建文件对象f = open('lgposition.csv', 'w', encoding='utf-8', newline='') # 2. 基于文件对象构建 csv写入对象csv_writer = csv.writer(f) # 3. 构建列表头csv_wr...原创 2020-04-05 17:12:21 · 370 阅读 · 2 评论 -
python面试之爬虫理论篇
1.requests 模块中,requests.content 和 requests.text 的区别.text是现成的字符串,.content还要编码,但是.text不是所有时候显示都正常,这是就需要用.content进行手动编码。2.lxml的使用方法...原创 2020-03-31 12:07:52 · 222 阅读 · 0 评论 -
python爬虫从开始登录开始一条龙爬取拉勾职位信息(selenium+chrome)
直接上代码:书写不易,给个好评吧吧吧from lxml import etreefrom selenium import webdriverimport timeimport refrom selenium.webdriver.support.ui import Select,WebDriverWaitfrom selenium.webdriver.support import ex...原创 2020-04-07 11:52:45 · 326 阅读 · 0 评论