自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 2021-07-23----scrapy学习day3

setting文件讲解 为什么需要setting.py文件 用于存放公共变量(如sql连接的host,usa_agent存放) setting便于用户程序修改公共配置,需要改配置只需要在setting中改一次就行(setting中变量尽量用大写,便于理解) 项目名 BOT_NAME = 'tencent' 爬虫存放位置 SPIDER_MODULES = ['tencent.spiders'] 新建爬虫会在什么位置 NEWSPIDER_MODULE = 'tencent.spiders' ua标识 US

2021-07-23 10:34:55 108

原创 最近遇到和看到的python爬虫实习岗的面试基础题

最近遇到和看到的python爬虫实习岗的面试基础题----以后遇到其他会补充 continue 语句 continue跳出本次循环,而break跳出整个循环。 continue用来告诉Python跳过当前循环的剩余语句,然后继续进行下一轮循环。 python优点 1、开发效率非常高,Python有非常强大的第三方库 2、高级语言————当你用Python语言编写程序的时候,你无需考虑诸如如何管理你的程序使用的内存一类的底层细节 3、可移植性————由于它的开源本质,Python已经被移植在许多平台上(经过改

2021-07-20 20:41:26 367

原创 2021-07-20----最近看的java面试基础

最近遇到与看到的java面试基础题------以后遇到其他的会继续补充 简单说说Java有哪些数据类型 1、分为基本数据类型和引用数据类型。 基本类型有8个:整数类型 (byte、short、int、long)、浮点数类型 (float、double)、字符型 (char)、布尔类型 (boolean) 引用类型包括三种:类 Class、接口 Interface、数组 Array 基本类型:基本类型值在内存中占据固定大小,保存在栈内存中 引用类型:引用类型的值是对象,保存在堆内存中,而栈内存存储的是对象的变

2021-07-20 20:38:13 103

原创 scrapy学习day2

具体在命令行终端的操作就不展示了 爬虫实战------ 实现翻页 核心思想就是在起始页面找到转到下一页的那个标签中的url段,然后截取出来,并组合成完整url 从页面中提取下一个网页url的组成部分,组成完整url,并组装成requests发送 url的提取与组合,以及返回requests 这些代码是我将从前做的豆瓣电影爬取(普通爬取)用scrapy框架写出来 写入mysql数据库 先得在mysql中建表 scrapy中cookies不放在headers中,需...

2021-07-19 08:26:14 566

原创 近日关于是scrapy的学习----day1

整个框架是简历再twisted异步模型上的 异步:调用在发出后,这个调用直接返回,不管有没有结果 非阻塞:关注的是程序在等待调用结果(消息,返回值)时的状态,指在不能立刻得到结果之前,该调用不会阻塞当前线程 异步与同步 同步:调用后等待,直到结果出来后才调用下一个方法 异步:调用后不等待,执行下一个方法 爬虫流程 第一步:url队列,将url放入队列 第二步:队列中url取出来,发送请求,获取响应 第三步:获取响应后将响应交给内容提取模块(内容提取----提取url与数据),..

2021-07-19 08:13:57 113

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除