Python爬虫
文章平均质量分 71
爱吃猫的鱼101
记录学习过程
展开
-
scrapy 爬取苏宁图书
一.项目要求 从每个大分类中获取里面的小分类 从小分类里面获取图书列表,并进行翻页获取 从图书列表里面获取每本书里面的详细信息 二. 需要用到的库 scrapy(整个爬虫的实现) re(需要用正则匹配需要的数据) copy(需要用到deepcopy) 三. 开撸 创建爬虫项目及爬虫 scrapy startproject suning scrapy genspider book suning.com 找到初始url地址 start_urls = ['https://book.suning.原创 2021-05-16 01:25:55 · 322 阅读 · 0 评论 -
selenium实现zhilian招聘的爬取
一.主要目的: 最近在玩Python网络爬虫,然后接触到了selenium这个模块,就捉摸着搞点有意思的,顺便记录一下自己的学习过程。 二.前期准备: 操作系统:windows10 浏览器:谷歌浏览器(Google Chrome) 浏览器驱动:chromedriver.exe (我的版本—>89.0.4389.128 ) 浏览器驱动需要根据你自己当前浏览器的版本来进行下载 链接 http://chromedriver.storage.googleapis.com/index.html原创 2021-04-18 19:16:14 · 845 阅读 · 8 评论 -
Python网络爬虫实战小项目
Python爬虫美女网之其乐无穷 爬取目标:美女网的相关信息 实现时需要用到的包: requests库 Beautifulsoup time json 值得注意的是 Beautifulsoup 在bs4里 ,记得pip install bs4 安装一下 目标分析: 从页面中找出需要信息的位置 很容易找到 class="content-box " 这个属性就是我们需要信息的位置,然后注意右下角的箭头,很明显这个标签属性是唯一的,看得出第一页就是10张图片,有了这个信息,我们就可以进一步分析所需原创 2021-04-12 00:45:41 · 470 阅读 · 0 评论 -
Python简单小爬虫
Python爬虫—古诗文网 爬取目标:古诗文网的名句及其出处 实现方法: requests库实现网络请求 xpath实现数据提取 目标分析: 获取页面规则 很明显,所有需要爬取的内容都在 div[@class=“sons”]下,因此只需要遍历该列表即可获得所需内容的位置,接下来进行xpath解析获得所需要的数据。 获取下一页url 分析可知,下一页的url在div[@class="pagesright "]/a[@class=“amore”]/@href 里面,值得注意的是,此处获取到的ur原创 2021-04-03 00:08:03 · 204 阅读 · 2 评论