Python网络爬虫
文章平均质量分 96
站在初学者角度,循序渐进学习了解爬虫必备的基础知识,以需求引入,对比学习多种爬虫框架的基本使用方法,帮助学习者掌握爬虫的相关技能,使其具备独立编写自己的网络爬虫项目,从而胜任网络爬虫工程师相关岗位工作。
胡老师11452
这个作者很懒,什么都没留下…
展开
-
11.Scrapy框架基础-使用Scrapy抓取数据并保存到mongodb
前面我们都是从头开始编写爬虫,发送请求、解析网页、数据存储等每一个功能模块都需要自己实现。这一章我们学习的Scrapy是一个爬虫框架,它将上述的所有功能都封装到框架里。这样我们使用较少的代码就能完成爬虫的工作。爬虫者往往会经历一个不用框架,到使用框架,再到不用框架的过程。初学者最开始只需要一个简单的小房子,所以使用Requests和bs4很方便。在学会使用Requests和bs4后,再使用Scrapy框架,你会发现一个新大路,原来只需要几行代码就可以完成爬虫,发现Scrapy很好用。但是渐渐地,你需要原创 2021-06-01 22:50:55 · 3747 阅读 · 7 评论 -
10.爬虫与数据库—Redis数据库(含爬虫实战)
一、Redis环境搭建二、Redis交互环境的使用三、Redis-py的使用四、使用Redis存储管理爬虫数据原创 2021-05-25 23:52:48 · 763 阅读 · 0 评论 -
9.爬虫与数据库—MongoDB
一、MongoDB的安装二、PyMongo的安装与使用三、使用RoboMongo执行MongoDB命令四、使用MongoDB存储管理爬虫数据原创 2021-05-19 13:00:22 · 1147 阅读 · 4 评论 -
8.爬取动态数据——模拟浏览器(Selenium入门到实战)
一、Selenium介绍二、Selenium安装三、Selenium使用原创 2021-05-08 12:07:01 · 1452 阅读 · 1 评论 -
7.爬取动态数据——通过审查元素解析真实地址
一、AJAX技术介绍二、JSON介绍与使用三、异步Get与Post请求四、特殊的异步加载五、多次请求的异步加载六、基于异步加载的登陆原创 2021-04-28 11:31:59 · 1497 阅读 · 2 评论 -
6.HTML内容解析-BeautifulSoup4
BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库,支持你使用喜欢的解析器实现对文档的导航、查找、修改等操作。一、安装BeautifulSoup4pipinstallbeautifulsoup4二、导入BeautifulSoup4from bs4 import BeautifulSoup三、生成BeautifulSoup对象解析源代码生成BeautifulSoup对象,使用以下代码:soup = BeautifulSoup...原创 2021-04-19 16:04:53 · 704 阅读 · 1 评论 -
5.HTML内容解析-XPath
学习重点:(1)HTML基础结构(2)使用XPath从HTML源代码中提取有用信息(3)使用Beautiful Soup4从HTML源代码中提取有用信息原创 2021-04-09 17:14:57 · 914 阅读 · 0 评论 -
4.多线程多进程及多线程爬虫开发
多线程爬虫前面我们所讲的爬虫都只有一个进程、一个线程,因此称为单线程爬虫。单线程爬虫每次只访问一个页面,而每个页面的内容最多几百KB,相对于计算机的网络带宽来说小太多,多出来的网速被浪费掉了。如果可以让爬虫同时访问10个页面,那计算机爬取的速度就提高了10倍。为此,我们就可以使用多线程技术。一、多进程库multiprocessing二、开发多线程爬虫三、爬虫的常见搜索方法1.深度优先搜索2.广度优先搜索3.爬虫搜索算法的选择...原创 2021-03-31 13:27:33 · 1110 阅读 · 4 评论 -
3.简单的网页爬虫开发
学习重点:(1)requests的安装和使用(2)多线程爬虫的开发(3)爬虫的常见算法一、使用Python获取网页源代码1.Python的第三方库安装与使用2.requests介绍与安装3.使用requests获取网页源代码(1)GET方式(2)POST方式二、多线程爬虫1.多进程库multiprocessing2.开发多线程爬虫三、爬虫的常见搜索方法1.深度优先搜索2.广度优先搜索3.爬虫搜索算法的选择四、实例:小说网站爬取开发.原创 2021-03-22 19:31:34 · 1723 阅读 · 3 评论 -
2.正则表达式从入门到实战
寻找规律使用正则符号表示规律提取信息一、正则表达式的基本符号二、在Python中使用正则表达式三、正则表达式的提取技巧1.先抓大再抓小2.括号内和括号外四、实例:半自动爬虫开发选择一遍百度贴吧的热门帖子,抓取关键信息并保存到文本中。...原创 2021-03-12 01:01:29 · 14022 阅读 · 20 评论 -
1.网络爬虫概述
一、爬虫是什么?二、爬虫可以做什么?三、爬虫开发中有哪些技术?原创 2021-03-06 16:50:54 · 5055 阅读 · 0 评论