- 博客(6)
- 收藏
- 关注
原创 python爬取豆瓣电影“华语”分类下的电影基本信息(提取xhr中的JSON信息)
目的: python爬取豆瓣电影“华语”分类下的电影基本信息分析过程: 普通beautifulsoup 抓取不到电影信息,网站将电影信息封装在XHR文件中,查找XHR文件发现里面是JSON数据,利用python的JSON模块提取里面的url即可,其他的按基础知识来抓取即可本次联系使用类来写代码代码如下:import requestsimport jsonfrom bs4 import...
2020-03-23 21:55:51 1121
原创 爬取西刺代理IP并验证是否可用导出CSV文件
目的: 爬取西刺代理IP并验证是否可用导出CSV文件需注意的点: 网页代码中代理ip部分奇偶数稍微不同,火狐和谷歌浏览器 筛选得不全,最后用了find_all 和 next_siblings来获取所用模块: requests BeautifulSoup csv每天进步一点点~~~~~~~~~~~~~~~爬取西刺代理IP并验证是否可用import requestsfrom bs4 ...
2020-03-22 23:07:40 191
原创 下载豆瓣图片标为‘小说’下的所有基本信息并导出到CSV文件
爬虫背景目的:下载豆瓣图片标为‘小说’下的所有基本信息并导出到CSV文件复制前的url:https://book.douban.com/tag/小说?start=0&type=T复制后的url:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=0&type=T使用到的模块: 1、urllib.request 2、req...
2020-03-22 17:42:53 567
原创 BeautifulSoup编写PYTHON爬虫案例-猫眼电影排行
爬虫背景目的:爬取猫眼电影排行网页:https://maoyan.com/board/分析过程:查找相关内容即可,主要用于熟悉BeautifulSoup及其他基础知识代码如下:import requestsfrom bs4 import BeautifulSoup url = 'https://maoyan.com/board/'header = {'user-ag...
2020-03-21 16:09:23 522
原创 BeautifulSoup编写PYTHON爬虫案例-下载名著小说
爬虫背景目的:爬取诗词名著网上的小说网页:http://www.shicimingju.com/book/sanguoyanyi.html分析过程:1、查找当前页面多个章节的URL2、打开每个章节保存文字内容代码如下:import requestsfrom bs4 import BeautifulSoupurl = 'http://www.shicimingju.com/boo...
2020-03-19 15:21:33 288
原创 BeautifulSoup编写PYTHON爬虫案例-下载MM图片
python小白学爬虫断断续续学习python差不多也有2个月了,摸了不少坑磕磕绊绊的完成了这个爬虫,对我来说还算蛮有意义的,留档纪念下。爬虫背景目的:爬取网页前10页的MM图片网页:http://jandan.net/ooxx(煎蛋网,正经网站)分析过程:1、查找当前页面多个图片的URL2、查找下一页URL3、循环打开10个页面分别保存每个页面的MM图片代码如下:import...
2020-03-19 09:03:46 321
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人