居然讲爬虫
文章平均质量分 80
6年Python老讲师,带你从入门到放弃爬虫,文章从入门到实战
普通网友
这个作者很懒,什么都没留下…
展开
-
跟着居然学<爬虫逆向>
本文章中所有内容仅供学习交流,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关,若有侵权,请联系我立即删除!网址:aHR0cHM6Ly9nZ3p5ZncuZmouZ292LmNuL2J1c2luZXNzL2xpc3Qv逆向参数:Data。原创 2023-06-05 19:08:31 · 834 阅读 · 0 评论 -
Python爬虫数据写入MongoDB
除了插入数据,MongoDB还支持更新、查询和删除等操作,我们可以根据不同的业务需求选择相应的方法进行操作。总之,Python和MongoDB的结合可以帮助我们实现高效的数据爬取和存储,为数据分析和挖掘提供了良好的基础。上述代码中,我们定义了一个包含三个书籍信息的列表,使用insert_many()方法将这些书籍信息批量插入到MongoDB中,并打印出新插入数据的ID。在上述代码中,我们使用insert_one()方法将字典类型的数据插入到MongoDB中,并打印出新插入的数据的ID。原创 2023-05-13 19:33:12 · 2366 阅读 · 0 评论 -
<居然讲爬虫>-8-MongoDB介绍
MongoDB是一个流行的文档型NoSQL数据库,它以高度可扩展性、灵活性和强大的查询能力而闻名。本文将介绍MongoDB的基本特点、数据模型、查询语言和应用场景。原创 2023-05-09 19:18:43 · 40 阅读 · 0 评论 -
<居然讲爬虫>7-多线程爬虫
Python 多线程爬虫是一种常见的网络爬取技术,可以利用多个线程同时进行数据获取,提高爬取效率。然后,我们创建了 5 个线程,并启动了爬虫任务。每个线程都会调用 crawl 函数执行任务,并输出当前线程编号和 title 内容。接下来,我们将编写一个简单的多线程爬虫,该爬虫用于获取百度首页的 HTML 内容,并输出获取到的内容和线程信息。综上所述,这些功能的添加可以使爬虫程序更加健壮、灵活和实用。最后,我们使用 join 方法等待所有线程结束,并打印完成信息。我们可以完善我们写的多线程爬虫程序。原创 2023-05-05 20:52:24 · 274 阅读 · 0 评论 -
<居然讲爬虫>6-selenium入门到放弃
Selenium 是一个 Web 的自动化测试工具,最初是为网站自动化测试而开发的,Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器,可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏。Selenium 的使用需要,下载浏览器驱动。ChromeDriver 是一个驱动 Chrome 浏览器的驱动程序,使用他才可以驱动浏览器。当然针对不同的浏览器有不同的 driver。原创 2023-05-05 20:40:37 · 246 阅读 · 0 评论 -
<居然讲爬虫>4-数据解析之XPATH
Xpath全称是Xpath是一门在HTML/XML文档中查找信息的语言,可用来在HTML/XML文档中对元素和属性进行遍历,XPath使用路径表达式来选取HTML/XML文档中的节点或者节点集看到这里有的小伙伴可能会对XML比较陌生,XML是可扩展标记语言,被设计为传输和存储数据,其焦点是数据的内容,而HTML是超文本标记语言,主要是显示数据以及如何更好显示。原创 2023-04-06 20:33:30 · 108 阅读 · 0 评论 -
<居然讲爬虫>5-数据解析之BeautifulSoup4
Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据原创 2023-05-04 19:00:28 · 141 阅读 · 0 评论 -
<居然讲爬虫>3-数据解析之正则表达式
正则表达式中的一些表示方法,可以同时匹配某个预定义字符集中的任意一个字符。比如,表达式\d可以匹配任意一个数字。虽然可以匹配其中任意字符,但是只能是一个,不是多个。表达式匹配\d任意一个数字,0~9 中的任意一个\w任意一个字母或数字或下划线,也就是 A-Z,a-z,0-9,_ 中的任意一个\s空格、制表符、换页符等空白字符的其中任意一个\D\d的反集,也就是非数字的任意一个字符,等同于[^\d]\W\w的反集,也就是[^\w]\S\s的反集,也就是[^\s]例如表达式\d\d,在匹配。原创 2023-04-06 17:29:45 · 214 阅读 · 1 评论 -
<居然讲爬虫>2-requests模块
requests模块作为爬虫中最常用的一个模块,我们必须要拿捏它。requests模块我会给大家分享以下的知识点可能之前看过一些教程的小可爱在想,为什么不是从urllib开始,而是从requests模块开始,原因有以下几点。原创 2022-11-05 22:01:28 · 189 阅读 · 0 评论 -
<居然讲爬虫>1-爬虫概述
爬虫方向的知识是十分碎片化的,我们在写爬虫针对的各种各样的网站,每个网站用到的反爬技术可能都不一样,所以我们面对不同的网站要有不同的解决方案。原创 2022-11-05 19:06:27 · 363 阅读 · 0 评论