天天基金数据采集 from lxml import etreefrom selenium import webdriverimport timefrom selenium.webdriver.support.ui import Select,WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.common.by import Byimport pymysqlcla
scrapy-redis爬虫简单搭建 在原来普通scrapy项目的基础上修改和新增如下几个地方即可在settings.py配置文件新增:DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"SCHEDULER = "scrapy_redis.scheduler.Scheduler"SCHEDULER_ORDER = 'BFO'SCHEDULER_PERSIST ...
selenium+chromedriver集成到scrapy框架 项目结构:qsbk_scrapy_selenium.py# -*- coding: utf-8 -*-import scrapyfrom pydispatch import dispatcherfrom scrapy import signalsfrom selenium import webdriverfrom scrapy_selenium.items import Scra...
scrapy相关综合 为什么使用scrapy?scrapy是一个比较重的框架,每次运行起来都要等待一段时间,因此每次要次验证我们提取数据的规则是否正确是一件很麻烦的事,所以scrapy提供了shell脚本,其中一个功能就可以方便我们来测试提取的数据。...
crawlSpider的介绍以及实战应用 1.CrawlSpider介绍crawlspider是Spider的派生类(一个子类),Spider类的设计原则是只爬取start_url列表中的网页,而CrawlSpider类定义了一些规则(rule)来提供跟进link的方便的机制,从爬取的网页中获取link并继续爬取数据。...
使用scrapy框架爬取糗事百科全部段子数据 项目结构:qsbk_spider.py# -*- coding: utf-8 -*-import scrapy#爬虫开始 scrapy crawl qsbk_spiderfrom qsbk.items import QsbkItemclass QsbkSpiderSpider(scrapy.Spider): # 爬虫名称 name = 'qsbk_spide...
python爬虫从开始登录开始一条龙爬取拉勾职位信息(selenium+chrome) 直接上代码:书写不易,给个好评吧吧吧from lxml import etreefrom selenium import webdriverimport timeimport refrom selenium.webdriver.support.ui import Select,WebDriverWaitfrom selenium.webdriver.support import ex...
python爬虫之爬取拉勾职位列表以及职位详情(selenium+chrome) from lxml import etreefrom selenium import webdriverimport timeimport refrom selenium.webdriver.support.ui import Select,WebDriverWaitfrom selenium.webdriver.support import expected_conditions as...
python爬虫之爬取拉勾网职位信息 import jsonimport timeimport requestsimport csv# 1. 创建文件对象f = open('lgposition.csv', 'w', encoding='utf-8', newline='') # 2. 基于文件对象构建 csv写入对象csv_writer = csv.writer(f) # 3. 构建列表头csv_wr...
python面试之爬虫理论篇 1.requests 模块中,requests.content 和 requests.text 的区别.text是现成的字符串,.content还要编码,但是.text不是所有时候显示都正常,这是就需要用.content进行手动编码。2.lxml的使用方法...
python面试之综合(二) 1.python中的pass语句Python pass 是空语句,是为了保持程序结构的完整性。不做任何事情,一般用做占位语句。2.python中的is和====用来比较判断两个对象的value(值)是否相等,is用来比较判断两个对象的唯一身份标识是否相等(id()得出来的不同那么就不相等) a = 1 b = 1 print(a == b) #True p...
简单介绍python中常用的正则表达式 1.点(.)说明:匹配任意字符但除了""换行符。在dotall模式中能匹配换行符号。实例:a.c 匹配:abc等等2.(反斜杠)说明:转义字符,如果字符串有*星号,可用\*或[*]实例:a\.c 匹配:a.c实例:a\\c 匹配:a\c3.[…]字符集说明:可以是字符集中任意字符,特殊字符如、- ^ 等可以在前面加反斜杠实例:a[bcd]e 匹配:abe、ace、a...
python面试之高级特性 1.python垃圾回收机制python采用的是引用计数机制为主,标记-清除和分代收集两种机制为辅的策略。2.魔法函数定义:1.在python中以双下滑线开头并且以双下滑线结尾的函数。2.魔法函数可以随意定义某个类的特性,这些方法在进行特定的操作时会自动被调用,python当中本身就定义了很多内置魔法函数,以下代码举例说明。3.代码示例:class ClassRoom(objec...
简单介绍python中的装饰器 1.什么是装饰器?装饰器就是一个函数,用来装饰别的函数,给别的函数附加新的功能,但要注意函数不一定就是装饰器哦。1.函数也是一个对象,它可以赋值变量,也可以通过变量调用函数。2.以函数作为参数的函数,返回为函数的函数为高阶函数,在函数里面定义函数的函数为嵌套函数。2.代码示例#写一个打印日志的装饰器def log(func): def wrapper(*args,**kwa...
python面试之redis相关 1.Redis在linux上的安装参考这篇文章写的很详细:https://www.cnblogs.com/happywish/p/10944253.html2.Redis几种数据类型string(字符串),hash(哈希),list(列表),set(集合)及zset(sorted set:有序集合)。3.python连接redisimport redisif __name__ ...
python面试之mongodb相关 1.操作数据库之前首先要安装好数据库1.官网下载tgz安装包2.解压 -> tar zxvf xxx.tgz3.为了方便操作需要重命名 -> mv xxx.tgz mongodb4.移动到local目录下,然后进入mongodb目录,创建db、logs两个文件 ->mv mogodb /usr/local/cd mongodbmkdir dbmkdir lo...
python面试之mysql python在mysql中执行事务# 导入pymysql模块import pymysql# 连接数据库conn = pymysql.connect(host="***", user="***",password="***",database="***",charset="utf8")# 得到一个可以执行SQL语句的光标对象cursor = conn.cursor()# 修改数据...