![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
文章平均质量分 80
python爬虫
资料小助手
python,java,区块链,微服务架构
展开
-
python爬虫学习笔记-mysql数据库介绍&下载安装
数据库概述为什么要使用数据库?那我们在没有学习数据库的时候,数据存放在json或者磁盘文件中不也挺好的嘛,为啥还要学习数据库?文件中存储数据,无法基于文件直接对数据进行操作或者运算,必须借助python将数据读取到计算机内存中然后基于Python程序操作数据,麻烦而且性能不高。使用文件存储数据,无法实现数据的共享。什么是数据库呢?先介绍几个概念:数据:Data描述事物的符号记录称为数据,描述事物的符号既可以是数字,也可以是文字、图片,图像、声音、语言等,数原创 2023-01-25 10:08:35 · 1337 阅读 · 0 评论 -
python爬虫学习笔记-selenium
简介selenium是一种浏览器自动化的工具,所谓的自动化是指,我们可以通过代码的形式制定一系列的行为动作,然后执行代码,这些动作就会同步触发在浏览器中。环境安装下载安装selenium:pip install selenium下载浏览器驱动程序:http://chromedriver.storage.googleapis.com/index.html查看驱动和浏览器版本的映射关系:http://blog.csdn.net/huilan_same/article/deta原创 2023-01-25 09:26:47 · 1427 阅读 · 0 评论 -
python爬虫学习笔记-scrapy框架(3)
ImagePipeLines的请求传参环境安装:pip install PillowUSER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.109 Safari/537.36'需求:将图片的名称和详情页中图片的数据进行爬取,持久化存储。分析:深度爬取:请求传参多页的数据爬取:手动请求的发送爬原创 2023-01-30 10:26:20 · 438 阅读 · 0 评论 -
python爬虫学习笔记-mongodb安装&基本介绍&pymongo使用
MongoDB数据存储MongoDB是一个非关系型数据库(NoSQL). 非常适合超大数据集的存储, 由 C++ 语言编写,旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。下面是Sql与mongodb的术语对比SQLMongodb表(Talbe)集合(Collection)行(Row)文档(Document)列(Col)字段(Field)主键原创 2023-01-28 08:58:27 · 805 阅读 · 0 评论 -
python爬虫学习笔记-M3U8流视频数据爬虫
现在大部分视频客户端都采用HTTP Live Streaming,而不是直接播放MP4等视频文件(HLS,Apple为了提高流播效率开发的技术)。HLS技术的特点是将流媒体切分为若干【TS片段】(比如几秒一段),然后通过一个【M3U8列表文件】将这些TS片段批量下载供客户端播放器实现实时流式播放。因此,在爬取HLS的流媒体文件的思路一般是先【下载M3U8文件】并分析其中内容,然后在批量下载文件中定义的【TS片段】,最后将其【组合】成mp4文件或者直接保存TS片段。原创 2023-01-24 10:11:13 · 4088 阅读 · 1 评论 -
python爬虫学习笔记-scrapy框架(6)
增量式爬虫应用场景分类通用爬虫聚焦爬虫功能爬虫分布式爬虫增量式:用来监测网站数据更新的情况(爬取网站最新更新出来的数据)。只是一种程序设计的思路,使用什么技术都是可以实现的。核心:去重。使用一个记录表来实现数据的去重:记录表:存储爬取过的数据的记录如何构建和设计一个记录表:记录表需要具备的特性:去重需要持久保存的方案1:使用Python的set集合充当记录表?不可以的!因为set集合无法实现持久化存储方案2:使用redis的set集合充当记录原创 2023-01-31 09:40:11 · 456 阅读 · 0 评论 -
python爬虫学习笔记-redis介绍&基本使用
redis基本使用介绍:redis是一款非关系型数据库或者缓存数据库(性能最高的非关系型数据库之一),拥有每秒近十万次的读写能力。安装&启动安装:使用免安装版本即可,免安装版本压缩包在window和mac文件夹中,对压缩包解压缩即可。启动:window:终端进入到解压缩文件夹的bin目录下,执行./redis-server启动服务,执行./redis-cli启动客户端mac:终端进入到解压缩文件夹的src目录下,执行./redis-serve原创 2023-01-27 10:30:47 · 711 阅读 · 0 评论 -
python爬虫学习笔记-scrapy框架(4)
selenium+scrapy需求:将网易新闻中的国内,国际,军事,航空四个板块下的新闻标题和内容进行数据爬取注意:哪些数据是动态加载的!技术:selenium,scrapy,中间件分析:抓取首页中四个板块下所有的新闻标题和新闻内容获取首页中四个板块对应的详情页链接首页是没有动态加载数据,可以直接爬取+解析对每一个板块的url发起请求,获取详情页中的新闻标题等内容通过分析发现每一个板块中的新闻数据全部是动态加载的数据,如何解决呢?通过selenium解决原创 2023-01-30 10:48:16 · 445 阅读 · 0 评论 -
python爬虫学习笔记-scrapy框架(2)
管道深入操作如何将数据存储到数据库注意:一个管道类负责将数据存储到一个具体的载体中。如果想要将爬取到的数据存储到多个不同的载体/数据库中,则需要定义多个管道类。思考:在有多个管道类的前提下,爬虫文件提交的item会同时给没一个管道类还是单独的管道类?爬虫文件只会将item提交给优先级最高的那一个管道类。优先级最高的管道类的process_item中需要写return item操作,该操作就是表示将item对象传递给下一个管道类,下一个管道类获取了item对象,才可以将数据存储成功!原创 2023-01-29 12:05:09 · 495 阅读 · 0 评论 -
python爬虫学习笔记-python连接操作mysql
python操作链接数据库pymysql模块:pip install pymysql作用:可以实现使用python程序链接mysql数据库,且可以直接在python中执行sql语句import pymysql#1.创建链接对象conn = pymysql.Connect( host='127.0.0.1',#数据库服务器主机地址 port=3306, #mysql的端口号 user='root', #数据库的用户名 password='boboadmin原创 2023-01-27 10:28:26 · 876 阅读 · 0 评论 -
python爬虫学习笔记-SQL学习
Sql概述先来看一个例子:小王第一次使用数据库,然后跟数据库来了个隔空对话其实,我们想一想,mysql是一个软件,它有它自己一套的管理规则,我们想要跟它打交道,就必须遵守它的规则,如果我想获取数据,它自己有一套规则,这个规则就是SQL。什么是sql?SQL : 结构化查询语言(Structured Query Language)简称SQL,是一种特殊目的的编程言,是一种数据库查询和程序设计语言,SQL语言主要用于存取数据、查询数据、更新数据和管理关系数据库系统,SQL语言由IBM开发原创 2023-01-26 16:44:07 · 4465 阅读 · 2 评论 -
python爬虫学习笔记-scrapy框架(1)
简介什么是框架?所谓的框,其实说白了就是一个【项目的半成品】,该项目的半成品需要被集成了各种功能且具有较强的通用性。Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。初期如何学习框架?只需要学习框架集成好的各种功能的用法即可!前期切勿钻研框架的源码!安装Linux/mac系统:原创 2023-01-29 10:22:42 · 605 阅读 · 0 评论 -
python爬虫学习笔记-scrapy框架(5)
CrawlSpider实现网站的全站数据爬取就是将网站中所有页码对应的页面数据进行爬取。crawlspider其实就是scrapy封装好的一个爬虫类,通过该类提供的相关的方法和属性就可以实现全新高效形式的全站数据爬取。使用流程:新建一个scrapy项目cd 项目创建爬虫文件(*):scrapy genspider-t crawl spiderName www.xxx.com爬虫文件中发生的变化有哪些?当前爬虫类的父类为CrawlSpider爬虫类中原创 2023-01-31 09:38:24 · 449 阅读 · 0 评论 -
python爬虫学习笔记-高性能异步爬虫
所以使用“池”必须考虑其面临的响应规模,并根据响应规模调整“池”的大小。接下来让我们来了解下协程的实现,从 Python 3.4 开始,Python 中加入了协程的概念,但这个版本的协程还是以生成器对象为基础的,在 Python 3.5 则增加了 asyncio,使得协程的实现更加方便。由于网络请求会受到个人电脑或者服务器响应时长不同等因素,我们可以自己创建一个专门用于测试的实验环境,搭建一个flask服务器,爬取本机自己服务器中的数据,避免其他因素的干扰,以便非常明显的观测出异步的效果。原创 2023-01-24 10:14:36 · 1366 阅读 · 1 评论 -
python爬虫学习笔记-requests高级
简历模板下载拓展import requestsfrom lxml import etreeimport osheaders = { 'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Safari/537.36',}#创建一个新的文件夹dirName = 'jianli'if not o原创 2023-01-22 10:12:44 · 1837 阅读 · 0 评论 -
python爬虫学习笔记-jQuery
jQuery是什么jQuery是一个快速、简洁的JavaScript框架。jQuery设计的宗旨是“write Less,Do More”,即倡导写更少的代码,做更多的事情。它封装JavaScript常用的功能代码,提供一种简便的JavaScript设计模式,优化HTML文档操作、事件处理等功能。jQuery兼容各种主流浏览器,如IE 6.0+、FF 1.5+、Safari 2.0+、Opera 9.0+等jQuery的版本。原创 2023-01-21 15:30:52 · 1683 阅读 · 0 评论 -
python爬虫学习笔记-requests基础
什么是爬虫就是编写程序,模拟浏览器上网,让其去互联网中抓取数据的过程模拟:浏览器本身就是一个纯天然的爬虫工具,爬虫相关的模块都是基于浏览器为基础开发出来的。注意:日后只要是你的爬虫程序没有爬取到你想要的数据,只有一个原因:就是你的爬虫程序模拟的力度不够!抓取:抓取网页数据分两种情况:将一个页面所有的数据抓取到将页面中局部的数据抓取到爬虫在应用场景的分类通用爬虫:将一个页面中所有的数据获取。大部分的搜索引擎中应用比较多。聚焦爬虫。原创 2023-01-21 15:43:31 · 1007 阅读 · 0 评论 -
python爬虫学习笔记-数据解析
数据解析何为数据解析概念:就是将爬取到数据中局部的指定的数据进行提取作用:实现聚焦爬虫数据解析通用原理:html是用来展示数据,html中展示的数据正是我们要爬取或者采集的数据html所展示的数据/想要爬取的数据只会存在于标签之间或者标签的属性中数据解析的通用原理:标签定位提取标签中存储的数据聚焦爬虫编码流程指定url发起请求获取响应数据数据解析持久化存储数据解析的主流策略如何爬取多媒体资源(图片,音频,视频,动图)方式1:编写麻烦,但是可以原创 2023-01-22 10:12:22 · 731 阅读 · 0 评论 -
python爬虫学习笔记-HTML基本了解
HTML,即超文本标记语言(HyperText Markup Language ]),也可叫做web页面。扩展名是 .html 或是 .htm。HTML,是一种用来制作网页的标准标记语言。超文本,指的就是超出普通文本范畴的文档,可以包含文本、图片、视频、音频、链接等元素。HTML 不是一种编程语言,而是一种写给网页浏览器、具有描述性的标记语言。也就是说:使用HTML语言描述的文件,需要通过网页浏览器显示出效果。用户在访问网页时,是把服务器的HTML文档下载。原创 2023-01-19 11:51:39 · 753 阅读 · 0 评论 -
python爬虫学习笔记-Web的基本概念
HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于万维网(WWW:World Wide Web )服务器与本地浏览器之间传输超文本的传送协议。超文本:超文本就是指“含有指向其他资源链接”内容的文本。大概就是,不仅仅是文字,还有多媒体:视频、图片、动画等。协议:HTTP协议就是服务器(Server)和客户端(Client)之间进行数据交互(相互传输数据)的一种协议。原创 2023-01-19 11:32:33 · 430 阅读 · 0 评论 -
python爬虫学习笔记-JavaScript学习
JS的作用:简单来说可以处理前端的一些简单的业务逻辑和用户行为、网页事件的触发和监听。原创 2023-01-20 10:32:29 · 1024 阅读 · 0 评论 -
python爬虫学习笔记-CSS(大致了解)
CSS中文译作“层叠样式表”或者是“级联样式表”,是用于控制网页外观处理并允许将网页的表现与内容分离的一种标记性语言,CSS不需要编译,可以直接由浏览器执行(属于浏览器解释型语言),是Web网页开发技术的重要组成部分。那么接下来,继续看下,使用CSS有什么好处吧。使用CSS样式可以有效地对页面进行布局,更加灵活多样。使用CSS样式可以对页面字体、颜色、背景和其他效果实现精确控制,同时对它们的修改和控制变得更加快捷,更加强大。站点中所有的网页风格都使用一个CSS文件进行统一控制,达到一改全改。原创 2023-01-20 10:18:23 · 2150 阅读 · 3 评论