- 博客(20)
- 资源 (43)
- 收藏
- 关注
原创 Scrapy框架下载器和随机请求头
下载器中间键可以为我们设置多个代理ip与请求头,达到反反爬虫的目的下面是scrapy为我们创建好的中间件的类Process_request(self,request,spider)参数request:发送请求的request对象spider:发送请求的spider对象此方法若返回None,Scrapy将继续处理此Request,直到 其他下载器中间件被调用此方法若返回Response对象:不再返回下载器,直接返回给引擎返回Request对象:使用现在返回的Request.
2021-03-31 15:28:11 212 1
原创 利用Scrapy框架爬取汽车之家图片(详细)
爬取结果爬取步骤创建爬虫文件进入cmd命令模式下,进入想要存取爬虫代码的文件,我这里是进入e盘下的E:\pystudy\scraping文件夹内C:\Users\wei>E:E:\>cd E:\pystudy\scrapingE:\pystudy\scraping>scrapy startproject Bmw5New Scrapy project 'Bmw5', using template directory 'f:\anaconda3\lib\si
2021-03-29 18:53:37 1417 1
原创 scrapy模拟豆瓣登录
看的课程是21天搞定分布式爬虫,应该是几年前的了,课程当时还是验证码,现在登录和之前都不一样了现在需要你拖动滑块完成拼图之前的页面现在验证码都变成拼图了学学原理吧首先创建scrapy项目首先进入到你想把这个项目存放的目录。然后使用以下命令创建:scrapy startproject [项目名称]使用命令创建一个爬虫cd 项目名称scrapy gensipder douban "douban.com"创建完成后目录如下:创建一个start方便我们在pycha.
2021-03-29 16:34:24 505
原创 LeetCode每日一题
191. 位1的个数难度简单290编写一个函数,输入是一个无符号整数(以二进制串的形式),返回其二进制表达式中数字位数为 '1' 的个数(也被称为汉明重量)。提示:请注意,在某些语言(如 Java)中,没有无符号整数类型。在这种情况下,输入和输出都将被指定为有符号整数类型,并且不应影响您的实现,因为无论整数是有符号的还是无符号的,其内部的二进制表示形式都是相同的。 在 Java 中,编译器使用二进制补码记法来表示有符号整数。因此,在上面的示例 3中,输入表示有符号整数-3。示例 ...
2021-03-22 11:06:34 118
原创 Scrapy爬虫快速入门
Scrapy快速入门Scrapy框架模块功能:Scrapy Engine(引擎):Scrapy框架的核心部分。负责在Spider和ItemPipeline、Downloader、Scheduler中间通信、传递数据等。 Spider(爬虫):发送需要爬取的链接给引擎,最后引擎把其他模块请求回来的数据再发送给爬虫,爬虫就去解析想要的数据。这个部分是我们开发者自己写的,因为要爬取哪些链接,页面中的哪些数据是我们需要的,都是由程序员自己决定。 Scheduler(调度器):负责接收引擎发送过来的请求,
2021-03-19 12:43:06 280
原创 用selenium爬取拉勾网职位信息及常见问题处理
源代码import refrom lxml import etreefrom time import sleepfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECimport csvfrom selenium.web
2021-03-17 10:27:24 1716 2
原创 python刷题之集合、哈希表常见操作及练习
集合集合是一个无序不重复元素的集。基本功能包括关系测试和消除重复元素。可以用大括号({})创建集合。注意:如果要创建一个空集合,你必须用 set() 而不是 {} ;后者创建一个空的字典,下一节我们会介绍这个数据结构。集合的基本操作1、添加元素语法格式如下:s.add( x )将元素 x 添加到集合 s 中,如果元素已存在,则不进行任何操作。实例(Python 3.0+)>>>thisset=set(("Google","Runoob","T...
2021-03-16 19:20:36 590
原创 python实现堆的基本操作及堆相关练习
堆(heap)又被为优先队列(priority queue)。尽管名为优先队列,但堆并不是队列。回忆一下,在队列中,我们可以进行的限定操作是dequeue和enqueue。dequeue是按照进入队列的先后顺序来取出元素。而在堆中,我们不是按照元素进入队列的先后顺序取出元素的,而是按照元素的优先级取出元素。性质堆的实现通过构造二叉堆(binary heap),实为二叉树的一种;由于其应用的普遍性,当不加限定时,均指该数据结构的这种实现。这种数据结构具有以下性质。任意节点小于(或大于)它的
2021-03-16 15:28:52 1145
原创 python刷题之栈和队列
20. 有效的括号难度简单2228给定一个只包括'(',')','{','}','[',']'的字符串s,判断字符串是否有效。有效字符串需满足:左括号必须用相同类型的右括号闭合。 左括号必须以正确的顺序闭合。使用栈class Solution: def isValid(self, s: str) -> bool: if len(s) == 0: return True stack = [] ...
2021-03-12 19:22:43 481
原创 刷题之链表
链表相关19. 删除链表的倒数第 N 个结点难度中等1261收藏分享切换为英文接收动态反馈给你一个链表,删除链表的倒数第n个结点,并且返回链表的头结点。进阶:你能尝试使用一趟扫描实现吗?示例 1:输入:head = [1,2,3,4,5], n = 2输出:[1,2,3,5]示例 2:输入:head = [1], n = 1输出:[]示例 3:输入:head = [1,2], n = 1输出:[1]双指针一次扫描期初指针...
2021-03-10 15:52:41 103
原创 高级爬虫: 使用 Selenium 浏览器
安装Selenium和chromedriver:因为 Selenium 需要操控你的浏览器, 所以安装起来比传统的 Python 模块要多几步. 先在 terminal 或者 cmd 用 pip 安装 selenium.# python 2+pip install selenium# python 3+pip3 install selenium要操控浏览器, 你就要有浏览器的 driver. Selenium 针对几个主流的浏览器都有 driver.针对 Linux 和 MacO..
2021-03-09 15:12:04 702 2
原创 python刷题之链表常见操作
链表常用操作也可以把列表当做队列用,只是在队列里第一加入的元素,第一个取出来;但是拿列表用作这样的目的效率不高。在列表的最后添加或者弹出元素速度快,然而在列表里插入或者从头部弹出速度却不快(因为所有其他的元素都得一个一个地移动)from collections import dequelinkedlist=deque()#Add element#Time Complexity: 0(1)linkedlist.append( 1)linkedlist.append(2)linkedlis
2021-03-08 20:17:02 481 2
原创 卷积padding,kernel_initializer
TensorFlow和keras.layers.convolutional.Conv1D和tf.layers.Conv1D函数keras.layers.convolutional.Conv1D(filters, kernel_size, strides=1, padding='valid', dilation_rate=1, activation=None, use_bias=True, kernel_initializer='glorot_uniform', bias_initializer.
2021-03-07 11:00:42 1401
原创 爬虫实战之多线程下载表情包
一般下载import requestsfrom lxml import etreeimport osimport refrom urllib.request import urlretrieveheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.190 Safari/537.36', .
2021-03-06 16:16:37 175
原创 python多线程学习
Python3 线程中常用的两个模块为:_thread(已经废弃) threading(推荐使用)线程模块Python3 通过两个标准库 _thread 和 threading 提供对线程的支持。_thread 提供了低级别的、原始的线程以及一个简单的锁,它相比于 threading 模块的功能还是比较有限的。threading 模块除了包含 _thread 模块中的所有方法外,还提供的其他方法:threading.currentThread(): 返回当前的线程变...
2021-03-06 12:33:48 141
原创 MongoDB的安装及配置服务及使用
安装配置https://blog.csdn.net/heshushun/article/details/777767061.先在安装目录data文件下创建一个新文件夹log(用来存放日志文件)2.在Mongodb安装路径下新建配置文件mongo.config在配置文件中添加dbpath=D:\software\MongoDB\data\dblogpath=D:\software\MongoDB\data\log\mongo.loglogpath是日志的路径。dhpath是mon
2021-03-05 18:34:02 1314
原创 爬虫之数据存储(json,csv,mysql)等
JSON支持数据格式:对象(字典)。使用花括号。 数组(列表)。使用方括号。 整形、浮点型、布尔类型还有null类型。 字符串类型(字符串必须要用双引号,不能用单引号)。多个数据之间使用逗号分开。注意:json本质上就是一个字符串。字典和列表转JSON:import jsonbooks = [ { 'title': '钢铁是怎样练成的', 'price': 9.8 }, { 'title': '红楼梦',
2021-03-05 16:45:32 425
原创 利用Python爬取糗事百科段子信息
有个博客很详细https://blog.csdn.net/weixin_42488570/article/details/80794087要求:用户ID,用户等级,用户性别,发表段子文字信息,好笑数量和评论数量,如下图所示:用户IDuser = re.findall('<h2.*?>(.*?)</h2>', text, flags=re.DOTALL)文字text = re.findall('<div class="content">.*?..
2021-03-05 14:39:54 226 1
原创 爬虫实战之爬取古诗文网站 (详细)
爬取古诗文网站重点是练习正则表达式的使用链接变化url_base = 'https://www.gushiwen.cn/default_{}.aspx'for i in range(1, 2): print('正在爬取第{}页:'.format(i)) url = url_base.format(i)要求1爬取李白的诗前几页2爬取推荐页面前几页换个链接均可以实现古诗题目titles = re.findall(r'<b>(.*?)&.
2021-03-04 20:17:00 6929 3
原创 正则表达式补充篇
1.re.match和re.searchmatch()和search()的区别:match()函数只检测RE是不是在string的开始位置匹配, search()会扫描整个string查找匹配 match()只有在0位置匹配成功的话才有返回,如果不是开始位置匹配成功的话,match()就返回none 验证手机号码:手机号码的规则是以1开头,第二位可以是34587,后面那9位就可以随意了。示例代码如下: text = "18570631587" ret = re.match('.
2021-03-04 17:05:16 269 2
《计算机应用基础(Windows 7+Office 2010)》课件
2023-04-04
计算机应用基础高等教育自学考试00018,00019备考知识点
2023-04-04
华中师范大学硕士论文模板(2023)
2023-03-27
数字图像处理lab6.zip matlib频域图像处理
2021-01-21
lab5new.zip
2020-12-03
heart-disease.names
2020-11-22
口红-data.xlsx
2020-11-22
心脏病的预测 原始数据 cleveland.data
2020-11-22
混凝土的强度预测 原始数据
2020-11-21
题目4 基于基站定位数据的商圈分析.zip
2020-11-20
题目5 基于水色图像的水质评价 原始数据
2020-11-20
题目3 电商产品评论数据情感分析.zip
2020-11-20
题目2 电子商务网站用户行为分析及服务推荐 数据
2020-11-20
数据挖掘课程设计 原始数据包
2020-11-20
研究生学术英语听说教程 听力资料.txt
2020-09-16
9散列表(源程序+文档+说明+总结)
2020-06-17
8、停车场管理数据结构课程设计(源程序+文档+说明+总结)
2020-06-17
7文本编辑数据结构课程设计 (源程序+文档+说明+总结)
2020-06-17
6、模拟计算器.算术表达式的求解(源程序+文档+说明+总结)
2020-06-17
5、校园导游程序(源程序+文档+说明+总结)
2020-06-17
4、哈夫曼编译码器问题
2020-06-17
药店的药品销售统计系统(排序应用)(源程序+文档+说明+总结)
2020-06-17
1运动会分数统计问题(源程序+文档+说明+总结)
2020-06-17
学生成绩管理系统(源程序+文档+说明+总结)
2020-06-17
《多媒体集成课程设计》.zip
2020-05-27
2020考研复试口语常考话题.docx
2020-05-20
常见人脸识别数据库(YALE人脸数据库+YALE人脸数据库b)
2020-04-14
lfw人脸数据集-人脸识别的常用测试集
2020-04-14
dlib-19.7.0-cp36-cp36m-win_amd64.whl
2020-04-02
FVC2004指纹数据集DB1-4.zip
2020-03-23
6数据结构模拟计算器.zip
2020-02-03
数据结构1.zip 完整文档+代码
2020-02-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人