Python爬虫
文章平均质量分 93
开始学习Python爬虫
W_chuanqi
这个作者很懒,什么都没留下…
展开
-
Selector的使用
这里没有在 Scrapy 框架中运行,而是把 Scrapy中的Selector 单独拿出来使用了,构建的时候传入text 参数,就生成了一个Selector选择器对象,然后就可以像Scrapy中的解析方式一样,调用xpath、css等方法来提取数据了。由于Selector 主要是与Scrapy结合使用,如 Scrapy的回调函数中的参数response 直接调用 xpath或者 css 方法来提取数据,所以在这里我们借助 Scrapy shell 来模拟Scrapy 请求的过程,讲解相关的提取方法。原创 2022-11-18 12:20:00 · 2805 阅读 · 0 评论 -
Scrapy入门
第一行代码首先通过CSS选择器获取下一个页面的链接,即要获取超链接a中的href 属性,这里用到了::attr(href)进行提取,其中 attr 代表提取节点的属性,href 则为要提取的属性名,然后再下一步调用extract_first方法获取内容。这里我们声明了 ITEM_PIPELINES 字典,键名是 Pipeline 的类名称,健值是调用优先级,是一个数字,数字越小则对应的Pipeline 越先被调用,另外我们声明了MongoDB的连接字符串和存储的数据库名称。首先看看网页结构,如图所示。原创 2022-11-14 20:15:52 · 835 阅读 · 0 评论 -
大数据采集概述
广义的互联网大数据即包括各种互联网 Web 应用中不断累计产生出来的数据,也包括Web后台的传统业务处理系统产生的数据。狭义的互联网大数据主要指基于互联网Web应用所产生的数据,例如新闻信息、微博、网络论坛帖子、电商评论等。在互联网大数据研究和应用中,常见的数据来源有以下类型。原创 2022-10-09 11:43:37 · 4936 阅读 · 0 评论 -
Ajax数据爬取
有时我们用requests抓取页面得到的结果,可能和在浏览器中看到的不一样在浏览器中可以看到正常显示的页面数据,而使用requests得到的结果中并没有这些数据。这是因为requests获取的都是原始HTML文档,而浏览器中的页面是JavaScript处理数据后生成的结果,这些数据有多种来源可能是通过Ajax加载的,可能是包含在HTML文档中的,也可能是经过JavaScript和特定算法计算后生成的。......原创 2022-07-31 23:08:43 · 406 阅读 · 0 评论 -
MongoDB文档存储
📋个人简介💖作者简介大家好,我是W_chuanqi,一个编程爱好者😀支持我💬愿你我共勉“若身在泥潭,心也在泥潭,则满眼望去均是泥潭;若身在泥潭,而心系鲲鹏,则能见九万里天地。”✨✨✨。...原创 2022-07-31 21:10:47 · 3226 阅读 · 0 评论 -
Python3 pymongo 使用 count 报警告解决办法
后面我将count()修改为estimated_document_count(),运行之后,发现还是报错。在网上查找资料发现,count方法已经被新版本淘汰了,我们可以使用新的统计方法。后来找到了原因,发现把find()方法去掉就可以了。如果是带条件的查询统计就需要使用。...原创 2022-07-31 11:48:05 · 6609 阅读 · 2 评论 -
CSV文件存储
📋个人简介💖作者简介大家好,我是W_chuanqi,一个编程爱好者😀支持我💬愿你我共勉“若身在泥潭,心也在泥潭,则满眼望去均是泥潭;若身在泥潭,而心系鲲鹏,则能见九万里天地。”✨✨✨。...原创 2022-07-27 17:15:21 · 4968 阅读 · 0 评论 -
JSON 文件存储
📋个人简介💖作者简介大家好,我是W_chuanqi,一个编程爱好者😀支持我💬愿你我共勉“若身在泥潭,心也在泥潭,则满眼望去均是泥潭;若身在泥潭,而心系鲲鹏,则能见九万里天地。”✨✨✨。...原创 2022-07-27 16:46:50 · 3837 阅读 · 0 评论 -
TXT文本文件存储
📋个人简介💖作者简介大家好,我是W_chuanqi,一个编程爱好者😀支持我💬愿你我共勉“若身在泥潭,心也在泥潭,则满眼望去均是泥潭;若身在泥潭,而心系鲲鹏,则能见九万里天地。”✨✨✨。...原创 2022-07-27 16:33:53 · 1097 阅读 · 0 评论 -
pyquery 的使用
📋个人简介💖作者简介大家好,我是W_chuanqi,一个编程爱好者😀支持我💬愿你我共勉“若身在泥潭,心也在泥潭,则满眼望去均是泥潭;若身在泥潭,而心系鲲鹏,则能见九万里天地。”✨✨✨。...原创 2022-07-26 21:41:55 · 910 阅读 · 0 评论 -
parsel的使用
parsel这个库可以解析HTML和XML,并支持使用XPath和CSS选择器对内容进行提取和修改,同时还融合了正则表达式的提取功能。parsel灵活且强大,同时也是Python最流行的爬虫框架Scrapy的底层支持。原创 2022-07-26 21:28:10 · 4550 阅读 · 0 评论 -
BeautifulSoup的使用
BeautifulSoup提供一些简单的、Python式的函数来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以无须很多代码就可以写出一个完整的应用程序。BeautifulSoup自动将输入文档转换为Unicode编码,将输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定具体的编码方式,这时你仅仅需要说明一下原始编码方式就可以了。推荐使用LXML解析库,必要时使用html.parser。https。...原创 2022-07-26 20:57:11 · 887 阅读 · 0 评论 -
Xpath的使用
📋个人简介💖作者简介大家好,我是W_chuanqi,一个编程爱好者😀支持我💬愿你我共勉“若身在泥潭,心也在泥潭,则满眼望去均是泥潭;若身在泥潭,而心系鲲鹏,则能见九万里天地。”✨✨✨。...原创 2022-07-20 15:39:13 · 3568 阅读 · 0 评论 -
httpx 的使用
📋 个人简介💖 作者简介:大家好,我是W_chuanqi,一个编程爱好者📙 个人主页:W_chaunqi😀 支持我:点赞👍+收藏⭐️+留言📝💬 愿你我共勉:“若身在泥潭,心也在泥潭,则满眼望去均是泥潭;若身在泥潭,而心系鲲鹏,则能见九万里天地。”✨✨✨ 我们使用urllib 库和 requests 库,已经可以爬取绝大多数网站的数据,但对于某些网站依然无能为力。这些网站强制使用 HTTP/2.0 协议访问,这时 urllib 和 requests 是无法爬取数据的,因为它们只支持...原创 2022-07-16 16:08:41 · 5645 阅读 · 0 评论 -
数据分析及可视化——京东上销量最高的鞋子
📋个人简介💖作者简介大家好,我是W_chuanqi,一个编程爱好者😀支持我💬愿你我共勉“若身在泥潭,心也在泥潭,则满眼望去均是泥潭;若身在泥潭,而心系鲲鹏,则能见九万里天地。”✨✨✨。......原创 2022-07-15 12:30:14 · 2069 阅读 · 4 评论 -
正则表达式
📋个人简介💖作者简介大家好,我是W_chuanqi,一个编程爱好者😀支持我💬愿你我共勉“若身在泥潭,心也在泥潭,则满眼望去均是泥潭;若身在泥潭,而心系鲲鹏,则能见九万里天地。”✨✨✨。......原创 2022-07-15 10:53:39 · 507 阅读 · 0 评论 -
urllib库的使用
📋 个人简介💖 作者简介:大家好,我是W_chuanqi,一个编程爱好者📙 个人主页:W_chaunqi😀 支持我:点赞👍+收藏⭐️+留言📝💬 愿你我共勉:“若身在泥潭,心也在泥潭,则满眼望去均是泥潭;若身在泥潭,而心系鲲鹏,则能见九万里天地。”✨✨✨ 首先介绍一个 Python 库,叫作 urllib,利用它就可以实现 HTTP请求的发送,而且不需要关心 HTTP协议本身甚至更底层的实现,我们要做的是指定请求的 URL、请求头、请求体等信息。此外 urllib 还可以把服务器返...原创 2022-07-07 07:30:00 · 176 阅读 · 0 评论 -
爬虫基础—多线程和多进程的基本原理
📋 个人简介💖 作者简介:大家好,我是W_chuanqi,一个编程爱好者📙 个人主页:W_chaunqi😀 支持我:点赞👍+收藏⭐️+留言📝💬 愿你我共勉:“若身在泥潭,心也在泥潭,则满眼望去均是泥潭;若身在泥潭,而心系鲲鹏,则能见九万里天地。”✨✨✨ 在一台计算机中,我们可以同时打开多个软件,例如同时浏览网页、听音乐、打字等,这是再正常不过的事情。但仔细想想,为什么计算机可以同时运行这么多软件呢?这就涉及计算机中的两个名词:多进程和多线程。 同样,在编写爬虫程序的时候,为了......原创 2022-06-29 18:10:51 · 565 阅读 · 0 评论 -
爬虫基础—代理的基本原理
📋 个人简介💖 作者简介:大家好,我是W_chuanqi,一个编程爱好者📙 个人主页:W_chaunqi😀 支持我:点赞👍+收藏⭐️+留言📝💬 愿你我共勉:“若身在泥潭,心也在泥潭,则满眼望去均是泥潭;若身在泥潭,而心系鲲鹏,则能见九万里天地。”✨✨✨ 在做爬虫的过程中经常会遇到一种情况,就是爬虫最初是正常运行、正常抓取数据的,一切看起来都是那么美好。然而一杯茶的工夫就出现了错误,例如 403 Forbidden,这时打开网页一看,可能会看到“您的 IP访问频率太高”这样的提示。......原创 2022-06-29 13:06:03 · 568 阅读 · 0 评论 -
爬虫基础—Session和Cookie
📋 个人简介💖 作者简介:大家好,我是W_chuanqi,一个编程爱好者📙 个人主页:W_chaunqi😀 支持我:点赞👍+收藏⭐️+留言📝💬 愿你我共勉:“若身在泥潭,心也在泥潭,则满眼望去均是泥潭;若身在泥潭,而心系鲲鹏,则能见九万里天地。”✨✨✨ 在浏览网站的过程中,我们经常会遇到需要登录的情况,有些页面只有登录之后才可以访问。在登录之后可以连续访问很多次网站,但是有时候过一段时间就需要重新登录。还有一些网站,在打开浏览器时就自动登录了,而且在很长时间内都不会失效,这又是什...原创 2022-06-11 15:02:03 · 774 阅读 · 0 评论 -
爬虫基础—爬虫的基本原理
📋 个人简介💖 作者简介:大家好,我是W_chuanqi,一个编程爱好者📙 个人主页:W_chaunqi😀 支持我:点赞👍+收藏⭐️+留言📝💬 愿你我共勉:“若身在泥潭,心也在泥潭,则满眼望去均是泥潭;若身在泥潭,而心系鲲鹏,则能见九万里天地。”✨✨✨ 若是把互联网比作一张大网,爬虫(即网络爬虫)便是在网上爬行的蜘蛛。把网中的节点比作一个个网页,那么蜘蛛爬到一个节点处就相当于爬虫访问了一个页面,获取了其信息。可以把网页与网页之间的链接关系比作节点间的连线,蜘蛛通过一个节点后,顺着...原创 2022-06-08 23:25:22 · 6009 阅读 · 0 评论 -
爬虫基础—WEB网页基础
📋 个人简介💖 作者简介:大家好,我是W_chuanqi,一个编程爱好者📙 个人主页:W_chaunqi😀 支持我:点赞👍+收藏⭐️+留言📝💬 愿你我共勉:“若身在泥潭,心也在泥潭,则满眼望去均是泥潭;若身在泥潭,而心系鲲鹏,则能见九万里天地。”✨✨✨文章目录第1章 爬虫基础1.2 WEB网页基础1.网页的组成❇HTML❇CSS❇JavaScript2.网页的结构3.节点树及节点间的关系4.选择器第1章 爬虫基础1.2 WEB网页基础1.网页的组成 网页可以分为三大部分———HTM原创 2022-05-30 20:09:00 · 566 阅读 · 0 评论 -
爬虫基础—HTTP基本原理
📋 个人简介💖 作者简介:大家好,我是W_chuanqi,一个编程爱好者📙 个人主页:W_chaunqi😀 支持我:点赞👍+收藏⭐️+留言📝💬 愿你我共勉:“若身在泥潭,心也在泥潭,则满眼望去均是泥潭;若身在泥潭,而心系鲲鹏,则能见九万里天地。”✨✨✨文章目录第1章 爬虫基础1.1 HTTP基本原理1. URI和URL2. HTTP和HTTPS3. HTTP请求过程4. 请求🌐请求方法🌐请求的网址🌐请求头🌐请求体5. 响应💠响应状态码💠响应头💠响应体6. HTTP 2.0🔷二进制分帧层🔷多路原创 2022-05-23 12:58:58 · 266 阅读 · 0 评论 -
网络爬虫的“盗亦有道”
前言:网络爬虫也叫做网络机器人,可以代替人们自动地在互联网中进行数据信息的采集与整理。在大数据时代,信息的采集是一项重要的工作,如果单纯靠人力进行信息采集,不仅低效繁琐,搜集的成本也会提高。网络爬虫虽好,但也要遵守相关法律法规,维护网络环境!目录一、网络爬虫引发的问题1.网络爬虫的“性能骚扰”2.网络爬虫的法律风险3.网络爬虫的隐私泄露二、网络爬虫的限制1.Robots协议2.Robots协议的遵守方式三、总结一、网络爬虫引发的问题首先我们先对网络爬虫.原创 2022-04-14 14:45:57 · 1818 阅读 · 2 评论 -
Requests入门
一、Requests安装Win平台: “以管理员身份运行”cmd执行 pip install requests这样Requests库就安装成功了安装成功之后,我们进行一下测试,以访问百度页面为例Requests库的7个主要方法方法 说明 requests.request() 构造一个请求,支撑以下各方法的基础方法 requests.get() 获取HTML网页的主要方法,对应于HTTP的GET requests.head() 获取HT.原创 2022-04-14 10:17:22 · 846 阅读 · 0 评论