
爬虫案例
文章平均质量分 71
学习、实践
Bruce_xiaowei
“Absorb what is useful. Discard what is not. Add what is uniquely your own.”
--Bruce Lee, Jeet Kune Do 创始人
展开
-
爬虫实战小案例—获取喜马拉雅账号的关注数据和粉丝数据生成电子表格并实现批量关注或者取关然后生成表格文件
获取喜马拉雅账号的已关注的数据和粉丝的数据, 然后再查找有哪些自己已关注的但没有关注自己(也就是不是自己的粉丝)的,还有自己没关注的粉丝数据。原创 2024-01-25 22:46:02 · 1019 阅读 · 0 评论 -
爬虫案例—抓取找歌词网站的按歌词找歌名数据
抓取页面里的所有要查的歌词及歌名等信息,并存为txt文件。利用协程抓取数据,效率很高。原创 2024-01-21 20:47:26 · 1216 阅读 · 1 评论 -
爬虫案例—根据四大名著书名抓取并存储为文本文件
目标:输入四大名著的书名,抓取名著的全部内容,包括书名,作者,年代及各章节内容。诗词名句网:https://www.shicimingju.com。原创 2024-01-18 11:21:12 · 1348 阅读 · 0 评论 -
爬虫案例—爬取ChinaUnix.net论坛板块标题
ChinaUnix.net论坛网址:http://bbs.chinaunix.net。利用requests和xpath实现目标。目标:抓取各个板块的标题和内容的标题。原创 2024-01-18 08:53:51 · 1111 阅读 · 2 评论 -
爬虫案例——使用超级鹰打码平台识别验证码
案例:模拟带验证码登录古诗文网站原创 2024-01-17 09:56:00 · 2580 阅读 · 0 评论 -
爬虫案例—雪球网行情中心板块数据抓取
雪球网行情中心网址:https://xueqiu.com/hq。目标:市场一览板块、热股榜板块、新股预告板块、关注排行榜板块。原创 2024-01-17 07:27:13 · 2680 阅读 · 0 评论 -
爬虫—根据股票代码实时抓取股票信息
实时抓取股票信息原创 2024-01-16 10:14:15 · 2119 阅读 · 0 评论 -
爬虫案例—抓取豆瓣电影的电影名称、评分、简介、评价人数
requests和lxml模块的应用案例。原创 2024-01-15 07:46:31 · 2396 阅读 · 0 评论 -
爬虫案例—爬取豆瓣电影最受欢迎的影评
requests和lxml模块的应用,豆瓣电影影评数据的抓取清洗。原创 2024-01-15 07:44:32 · 692 阅读 · 0 评论 -
爬虫—抓取表情党热门栏目名称及链接
抓取表情党网站的热门栏目名称和链接原创 2024-01-14 07:50:11 · 1024 阅读 · 2 评论 -
爬虫—中信证券资管产品抓取
requests和xpath抓取中信证券数据原创 2024-01-14 07:48:52 · 1191 阅读 · 3 评论 -
爬虫案例—表情党图片data-src抓取
利用requests和xpath抓取表情党图片data-src原创 2024-01-13 16:09:54 · 1353 阅读 · 1 评论 -
爬虫—响应页面乱码问题解决方法
爬虫,响应页面出现乱码问题的解决方法原创 2024-01-13 11:00:31 · 1173 阅读 · 0 评论 -
爬虫案例—抓取腾牛网第一页图片列表里的图片src
【代码】爬虫案例—抓取腾牛网第一页图片列表里的图片src。原创 2024-01-10 22:15:08 · 416 阅读 · 0 评论 -
爬虫案例—抓取小米商店应用
requests模块和xpath的结合应用原创 2024-01-10 19:35:40 · 1714 阅读 · 0 评论 -
Aiohttp异步爬取小说排行榜
** Aiohttp简介及使用 *** Aiohttp是Python的一个第三方网络编程模块, 它可以开发服务端和客户端,服务端也就是我们常说的网站服务器;客户端是访问网站的API接口,常用于接口测试,也可用于开发网络爬虫。Aiohttp是基于Asyncio实现的HTTP框架,Asyncio是从Python3.4开始引入的标准库,它是因协程的概念而生,这是Python官网推荐高并发的模块之一。原创 2023-06-09 21:01:21 · 1361 阅读 · 0 评论 -
Python编程——爬取表情包案例
Python编程——爬取表情包案例国庆假期,在家继续学习。今天闲着没事爬取一些表情包,与大家分享一下。原创 2022-10-02 20:58:53 · 126 阅读 · 0 评论 -
Python反爬机制-验证码
识别验证码 OCR(Optical Character Recognition)即光学字符识别技术,专门用于对图片文字进行识别,并获取文本。字符验证码的特点就是验证码中包含数字、字母或者掺杂着斑点与混淆曲线的图片验证码。识别此类验证码,首先需要找到验证码验证码图片在网页HTML代码中的位置,然后将验证码下载,最后再通过OCR技术进行验证码的识别工作。1. 字符验证码1.1 OCR环境 Tesseract-OCR是一个免费、开源的OCR引擎,通过该引擎可以识别图片中的验证码,搭建OCR的具体步骤原创 2022-02-16 18:12:54 · 1584 阅读 · 0 评论 -
爬虫应用的正则表达式
爬虫应用的正则表达式使用search()方法匹配字符串re模块中的search()方法用于在整个字符串中搜索第一个匹配的值,如果在第一个匹配位置撇皮成功,则返回Match 对象,否则返回None。语法格式如下:re.search(pattern, string, [flags])参数说明如下:§ pattern: 表示模式字符串,由要匹配的正则表达式转换而来§ string: 表示要匹配的字符串§ flags: 可选参数,表示修饰符,用于控制匹配方式,如是否区分字母大小写获取第一个指定字原创 2022-02-03 22:29:57 · 887 阅读 · 0 评论 -
高级网络请求模块
高级网络请求模块Requests-Cache的安装与测试Requests-Cache模块是requests模块的一个扩展功能,用于为requests模块提供持久化缓存支持。如果requests模块向一个URL发送重复请求时,Requests-Cache模块将会自动判断当前的网络请求时否产生了缓存。如果已经产生了缓存,就会从缓存中读取数据作为响应内容。如果没有缓存就会向服务器发送网络请求,获取服务器所返回的响应内容。使用Requests-Cache模块可以减少网络资源避免重复请求的次数,这样可以变相地躲原创 2022-02-03 05:07:47 · 1529 阅读 · 1 评论 -
爬虫基础_urllib
爬虫基础学习笔记urllib库urllib库是Python中的一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。1、urlopen函数在Python3的urllib库中,所有和网络请求相关的方法,都在urllib.request模块下面,urlopen函数的基本使用,urlopen()函数语法格式如下:request.urlopen(url, data=None, [timeout,]*, cafile=None, capath=None, c原创 2022-01-24 22:16:40 · 1382 阅读 · 0 评论 -
使用selenium+chromedriver+xpath爬取动态加载信息
使用selenium+chromedriver+xpath爬取动态加载的信息使用selenium实现动态渲染页面的爬取,selenium是浏览器自动化测试框架,是一个用于Web应用程序测试的工具,可以直接运行在浏览器当中,并可以驱动浏览器执行指定的动作,如点击、下拉、填充数据、删除cookie等操作,还可以获取浏览器当前页面的源代码,就像用户在浏览器中操作一样。该工具所支持的浏览器有IE浏览器、Mozilla Firefox以及Google Chrome等。安装selenium模块首先打开Anaco原创 2022-02-09 09:51:19 · 3377 阅读 · 0 评论 -
Python爬虫-进程间通信
Python爬虫-进程间通信进程概述 进程(Process)是计算机中已运行程序的实体。进程与程序不同,程序本身只是指令、数据及器组织形式的描述,进程才是程序(那些指令和数据)的真正运行实体。例如在没有打开QQ时,QQ只是程序。打开以后,操作系统为QQ开启一个进程。再打开一个QQ,则又开启一个进程。 那么在多进程中,每个进程之间是什么关系呢?其实每个进程都有自己的地址空间、内存、数据栈以及其他记录其运行状态的辅助数据。下通过一个例子验证一下进程间是否能直接共享信息。示例代码如下:#_*_cod原创 2022-02-13 15:41:25 · 528 阅读 · 0 评论 -
Scrapy 爬虫框架
Scrapy 爬虫框架1. 概述 Scrapy是一个可以爬取网站数据,为了提取结构性数据而编写的开源框架。Scrapy的用途非常广泛,不仅可以应用到网络爬虫中,还可以用于数据挖掘、数据监测以及自动化测试等。Scrapy是基于Twisted的异步处理框架,架构清晰、可扩展性强,可以灵活完成各种需求。 在Scrapy的工作流程中主要包括以下几个部分: § Scrapy Engine(框架的引擎):用于处理整个系统的数据流,触发各种事件,是整个框架的核心。 § Scheduler(调度器原创 2022-02-17 16:04:02 · 13076 阅读 · 0 评论 -
Urllib模块学习笔记
请求模块Urllib学习笔记Cookie操作利用Cookie信息登录网页并输出模块:import urllib.requestimport http.cookiejar将cookie信息保存为LWP格式文件模块:import urllib.request # 导入urllib.request模块import urllib.parse # 导入urllib.parse模块import http.cookiejar # 导入http.cookiejar子模块import jso原创 2022-01-27 16:04:58 · 1055 阅读 · 0 评论 -
Scrapy爬虫框架-通过Cookies模拟自动登录
Scrapy爬虫框架-通过Cookies模拟自动登录 熟练使用Cookies在编写爬虫程序时是非常重要的,Cookies代表用户的信息,如果需要爬取登录后网页的信息,就可以将Cookies信息保存,然后在第二次获取登录后的信息时就不需要再次登录了,直接使用Cookies进行登录即可。1.3.1 在Scrapy中,如果想在Spider(爬虫)文件中直接定义并设置Cookies参数时,可以参考以下示例代码:import scrapyclass CookiespiderSpider(scrapy.原创 2022-02-19 12:31:41 · 5181 阅读 · 2 评论 -
selenium的常见表单元素操作
selenium的表单相关操作selenium是浏览器自动化测试框架,是一个用于Web应用程序测试的工具,可以直接运行在浏览器当中,并可以驱动浏览器执行指定的动作,如点击、下拉、填充数据、删除cookie等操作,还可以获取浏览器当前页面的源代码,就像用户在浏览器中操作一样。该工具所支持的浏览器有IE浏览器、Mozilla Firefox以及Google Chrome等。selenium有很多语言的版本,比如:Java、Ruby、Python等。操作表单元素常见的表单元素§ Input§ butt原创 2022-02-10 14:57:33 · 13154 阅读 · 2 评论 -
Splash的爬虫应用
Splash的爬虫应用Splash是一个JavaScript渲染服务,它是一个带有HTTP API的轻型Web浏览器。Python可以通过HTTP API调用Splash中的一些方法实现对页面的渲染工作,同时它还可以使用Lua语言实现页面的渲染,所以使用Splash同样可以实现动态渲染页面的爬取。其实它与selenium所实现的功能都相同的,只不过实现的过程和原理有所不同。搭建Splash环境(Mac系统)搭建Splash环境需要docker命令进行安装,所以要先安装Docker,然后通过Docker原创 2022-02-11 10:19:49 · 1527 阅读 · 0 评论 -
Python爬虫-数据处理与存储
Python爬虫-数据处理与存储数据处理 可以使用pandas模块来实现数据处理,pandas是一个开源的并且通过BSD许可的库。它主要为Python语言提供高性能、易于使用数据结构和数据分析工具,此外还提供了多种数据操作和数据处理方法。由于pandas是第三方模块所以在使用前需要安装并导入该模块。pandas 数据结构 pandas的数据结构中有两大核心,分别是Series与DataFrame。 其中Series是一维数组,它与Python中基本数据结构List相近。Series可以保存多种原创 2022-02-15 13:36:15 · 2300 阅读 · 0 评论 -
urllib3学习笔记
urllib3学习笔记urllib3简介 urllib3是个功能强大、条理清晰,用于HTTP客户端的第三方模块,许多Python的原生系统已经开始使用urllib3。urllib3提供了很多Python标准库里没有的重要特性:• 线程安全• 连接池• 客户端SSL/TLS验证• 使用multipart编码上传文件• Helpers 用于重试请求并处理HTTP重定向• 支持gzip和deflate编码• 支持HTTP和SOCKS代理• 100%的测试覆盖率发送网络请求GET请求使用原创 2022-01-28 10:45:33 · 4636 阅读 · 0 评论 -
解析数据的Beautiful Soup 模块
解析数据的Beautiful Soup 模块使用Beautiful Soup解析数据Beautiful Soup是一个用于从HTML和XML文件中提取数据的Python模块。Beautiful Soup提供一些简单的函数用来处理导航、搜索、修改分析树等功能。Beautiful Soup 模块中的查找提取功能非常强大,而且非常便捷。Beautiful Soup自动输入文档转换为Unicode编码,输出文档转换为UTF-8编码。开发者不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautifu原创 2022-02-07 09:26:16 · 1088 阅读 · 0 评论 -
XPath解析
XPath解析XPath 概述XPath是 XML路径语言,全名为“XML Path Language“,是一门可以在XML文件中查找信息的语言。不仅可以实现XML文件的搜索,还可以在HTML文件中进行搜索。XPath常用路径表达式:XPath常用路径表达式及描述表 达 式描 述nodename选取此节点的所有子节点/从当前节点选取子节点//从当前节点选取子孙节点.选取当前节点…选取当前节点的父节点@选取属性*选取所有节点原创 2022-02-04 15:44:46 · 2437 阅读 · 0 评论 -
Scrapy爬虫框架-自定义中间件
Scrapy爬虫框架-自定义中间件 Scrapy中内置了多个中间件,不过在多数情况下开发者都会选择创建一个属于自己的中间件,这样既可以满足自己的开发需求,还可以节省很多开发时间。在实现自定义中间件时需要重写部分方法,因为Scrapy引擎需要根据这些方法名来执行并处理,如果没有重写这些方法,Scrapy的引擎将会按照原有的方法执行,从而失去自定义中间件的意义。1.1 设置固定请求头示例代码如下:#_*_coding:utf-8_*_# 作者 :liuxiaowei# 创建时间原创 2022-02-18 16:23:00 · 845 阅读 · 2 评论 -
请求模块requests
请求模块requestsrequests是Python中实现HTTP请求的一种方式,requests是第三方模块,该模块在实现HTTP请求时要比urllib、urllib3模块简化很多,操作更加人性化。请求方式由于requests模块为第三方模块,所以在使用requests模块时需要通过执行命令’pip install requests’进行该模块的安装。如果使用了Anaconda则不需要单独安装requests模块。requests模块功能特性如下:§ Keep-Alive & 连接池原创 2022-01-29 22:43:31 · 3706 阅读 · 0 评论