一个喜欢林俊杰的靓仔-CSDN博客

from lxml import etreefrom selenium import webdriverimport timefrom selenium.webdriver.support.ui import Select,WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.common.by import Byimport pymysqlcla

2020-05-28 12:17:20 3120

原创 scrapy-redis爬虫简单搭建

在原来普通scrapy项目的基础上修改和新增如下几个地方即可在settings.py配置文件新增：DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"SCHEDULER = "scrapy_redis.scheduler.Scheduler"SCHEDULER_ORDER = 'BFO'SCHEDULER_PERSIST ...

2020-04-25 18:56:08 332

原创 selenium+chromedriver集成到scrapy框架

项目结构：qsbk_scrapy_selenium.py# -*- coding: utf-8 -*-import scrapyfrom pydispatch import dispatcherfrom scrapy import signalsfrom selenium import webdriverfrom scrapy_selenium.items import Scra...

2020-04-19 15:34:48 381

原创 scrapy相关综合

为什么使用scrapy?scrapy是一个比较重的框架，每次运行起来都要等待一段时间，因此每次要次验证我们提取数据的规则是否正确是一件很麻烦的事，所以scrapy提供了shell脚本，其中一个功能就可以方便我们来测试提取的数据。...

2020-04-18 20:30:18 192

原创 crawlSpider的介绍以及实战应用

1.CrawlSpider介绍crawlspider是Spider的派生类(一个子类)，Spider类的设计原则是只爬取start_url列表中的网页，而CrawlSpider类定义了一些规则(rule)来提供跟进link的方便的机制，从爬取的网页中获取link并继续爬取数据。...

2020-04-15 12:07:59 456

原创使用scrapy框架爬取糗事百科全部段子数据

项目结构：qsbk_spider.py# -*- coding: utf-8 -*-import scrapy#爬虫开始 scrapy crawl qsbk_spiderfrom qsbk.items import QsbkItemclass QsbkSpiderSpider(scrapy.Spider): # 爬虫名称 name = 'qsbk_spide...

2020-04-12 20:51:28 616

原创 python爬虫从开始登录开始一条龙爬取拉勾职位信息(selenium+chrome)

直接上代码：书写不易，给个好评吧吧吧from lxml import etreefrom selenium import webdriverimport timeimport refrom selenium.webdriver.support.ui import Select,WebDriverWaitfrom selenium.webdriver.support import ex...

2020-04-07 11:52:45 384

原创 python爬虫之爬取拉勾职位列表以及职位详情(selenium+chrome)

from lxml import etreefrom selenium import webdriverimport timeimport refrom selenium.webdriver.support.ui import Select,WebDriverWaitfrom selenium.webdriver.support import expected_conditions as...

2020-04-06 18:27:26 340

原创 python爬虫之爬取拉勾网职位信息

import jsonimport timeimport requestsimport csv# 1. 创建文件对象f = open('lgposition.csv', 'w', encoding='utf-8', newline='') # 2. 基于文件对象构建 csv写入对象csv_writer = csv.writer(f) # 3. 构建列表头csv_wr...

2020-04-05 17:12:21 475 2

原创 python面试之结尾篇

1.

2020-03-31 15:40:45 243

原创 python面试之爬虫理论篇

1.requests 模块中，requests.content 和 requests.text 的区别.text是现成的字符串，.content还要编码，但是.text不是所有时候显示都正常，这是就需要用.content进行手动编码。2.lxml的使用方法...

2020-03-31 12:07:52 292

原创 python面试之综合(二)

1.python中的pass语句Python pass 是空语句，是为了保持程序结构的完整性。不做任何事情，一般用做占位语句。2.python中的is和====用来比较判断两个对象的value(值)是否相等,is用来比较判断两个对象的唯一身份标识是否相等(id()得出来的不同那么就不相等) a = 1 b = 1 print(a == b) #True p...

2020-03-22 11:10:59 357

原创简单介绍python中常用的正则表达式

1.点(.)说明：匹配任意字符但除了"\n"换行符。在dotall模式中能匹配换行符号。实例：a.c 匹配：abc等等2.(反斜杠)说明：转义字符，如果字符串有*星号，可用\*或[*]实例：a\.c 匹配：a.c实例：a\\c 匹配：a\c3.[…]字符集说明：可以是字符集中任意字符，特殊字符如、- ^ 等可以在前面加反斜杠实例：a[bcd]e 匹配：abe、ace、a...

2020-03-18 22:20:22 866

原创 python面试之高级特性

1.python垃圾回收机制python采用的是引用计数机制为主，标记-清除和分代收集两种机制为辅的策略。2.魔法函数定义：1.在python中以双下滑线开头并且以双下滑线结尾的函数。2.魔法函数可以随意定义某个类的特性，这些方法在进行特定的操作时会自动被调用，python当中本身就定义了很多内置魔法函数，以下代码举例说明。3.代码示例：class ClassRoom(objec...

2020-03-15 12:00:14 249

原创简单介绍python中的装饰器

1.什么是装饰器?装饰器就是一个函数,用来装饰别的函数，给别的函数附加新的功能,但要注意函数不一定就是装饰器哦。1.函数也是一个对象，它可以赋值变量，也可以通过变量调用函数。2.以函数作为参数的函数，返回为函数的函数为高阶函数，在函数里面定义函数的函数为嵌套函数。2.代码示例#写一个打印日志的装饰器def log(func): def wrapper(*args,**kwa...

2020-03-09 20:28:43 395 1

原创 python面试之redis相关

1.Redis在linux上的安装参考这篇文章写的很详细：https://www.cnblogs.com/happywish/p/10944253.html2.Redis几种数据类型string（字符串），hash（哈希），list（列表），set（集合）及zset(sorted set：有序集合)。3.python连接redisimport redisif __name__ ...

2020-03-07 18:12:50 283

原创 google谷歌浏览器chrome上安装Advanced Rest client插件

以下是截图下来的具体步骤:到这里就ok了

2020-03-06 14:21:19 953

原创 python面试之mongodb相关

1.操作数据库之前首先要安装好数据库1.官网下载tgz安装包2.解压 -> tar zxvf xxx.tgz3.为了方便操作需要重命名 -> mv xxx.tgz mongodb4.移动到local目录下，然后进入mongodb目录，创建db、logs两个文件 ->mv mogodb /usr/local/cd mongodbmkdir dbmkdir lo...

2020-03-01 12:56:04 301

原创 python面试之mysql

python在mysql中执行事务# 导入pymysql模块import pymysql# 连接数据库conn = pymysql.connect(host="***", user="***",password="***",database="***",charset="utf8")# 得到一个可以执行SQL语句的光标对象cursor = conn.cursor()# 修改数据...

2020-02-28 17:09:43 304

原创 python面试之操作类

1.Python 中交换两个变量的值的方式def exchangeValue(a,b): a = a^b b = a^b # b = (a^b)^b = a a = a^b # a = (a^b)^a = b print(a,b)if __name__ == '__main__': #第一种(使用临时变量) a = 1 b = 2...

2020-02-28 16:38:24 246

原创 python面试之数据类型(综合)

1.python中tuple和list的相互转换 # list to tuple lis = [1, 2, 3, 4, 5, 6] print(type(lis),lis) x = tuple(lis) print(type(x), x) # tuple to list tup = (1, 2, 3, 4, 5, 6) print(...

2020-02-25 10:21:23 331

原创 python面试之数据类型(字典)

1.字典操作中 del 和 pop 有什么区别两个都是删除元素的方法if __name__ == '__main__': site = {'name1': 'python','name2': 'java'} print(site) print(site.pop('name1')) print(site) del site['name2'] pr...

2020-02-22 19:36:36 245

原创 python面试之数据类型(列表)

1.如何对list去重复实现有很多方式，我这边记下我写的一种if __name__ == '__main__': # 数据源 lists = [1, 2, 3, 1, 2] # 存储不重复的值 aLists = [] for list in lists: # 为空直接添加 if len(aLists) == 0: ...

2020-02-21 17:56:03 217

原创 python面试之数据类型(字符串)

1.可变数据类型和不可变数据类型结论：不可变数据类型更改后地址发生改变，可变数据类型更改地址不发生改变id()是查看内存地址1.1不可变类型有：Number(数字) String(字符串) Tuple (元组)。int：if __name__ == '__main__': a = 1 print(id(a), type(a)) #10914496 <class...

2020-02-20 16:35:53 262

原创 python面试之编码规范

1.什么是PEP8(Python Enhancement Proposal)?PEP是 Python Enhancement Proposal 的缩写，翻译过来就是 Python增强建议书。遵循里面的建议，可提高代码的阅读性。具体详看官方文档链接:[PEP8编程规范](https://www.python.org/dev/peps/pep-0008/)2.什么是Python之禅？打开终端...

2020-02-18 18:22:19 246

原创 python面试之语言特性(2)

1.解释型和编译型编程语言的区别解释型语言源代码不是直接翻译成机器语言，而是先翻译成中间代码，再由解释器对中间代码进行解释运行。编译型语言编译型语言的首先将源代码编译生成机器语言，再由机器运行机器码(二进制),像C/C++等都是编译型语言。2.Python 的解释器种类以及相关特点CPython官方版本的解释器：CPython。这个解释器是用C语言开发的，所以叫CPython。在...

2020-02-17 17:02:24 230

原创 python面试之语言特性(1)

Python和Java语言的区别1.语言类型的不同Java是一种静态类型语言，更适合作为一个底层的实现语言。python是一种动态类型语言，更适合作为一种‘胶水’语言。2.变量使用的不同java:java中所有变量必须先声明才能使用，它是面向对象的，你还需要执行一个编译过程来编译代码，然后才可以运行它。例如以java中八种基本数据类型为例的代码：byte a = 100short ...

2020-02-16 21:55:34 485 1

原创只要出发,就能到达。

开始人生当中的第一篇博客日常分享，承蒙各位关照。

2020-02-16 16:53:44 216

SHUSYAO的博客

原创全网数据采集

原创天天基金数据采集