![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
oneday_某天
从0开始的程序猿生活。
展开
-
Python爬虫练习四:利用selenium爬取煎蛋网的妹子图
目标网址:http://jandan.net/ooxx。 经研究发现,煎蛋网设置了大量的反爬虫机制(果然妹子是第一生产力,网站被爬的痛了),隐藏了图片地址,搞了半天没找出规律。心一横,采取曲线路线,成功爬取大量妹子图~ selenium可以模仿人操作浏览器,从而达到通过与浏览器交互的方式,使服务器上的反爬虫机制失效。但这种方式也有其缺点:1、必须要打开浏览器,程序模拟人对浏览器...原创 2018-06-05 09:45:30 · 899 阅读 · 0 评论 -
Python爬虫练习一:爬取 2016年统计用区划代码和城乡划分代码
目标网址:http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2016/index.html 爬取所有市级的统计用区划代码和区级、县级的url(即目标网页第二层链接的内容全部爬取),区级、县级及以下的区划代码没有爬取。 网站构造比较简单,容易爬取成功。import requestsfrom bs4 import Beautiful...原创 2018-05-29 16:27:55 · 2673 阅读 · 0 评论 -
Python爬虫练习二:爬取笔趣阁小说
爬取这个小说网站真的很EASY!很有成就感~适合爬虫的初学者!以一个叫《凡人修仙传仙剑篇》的小说作为目标进行爬取测试。废话不多说,上代码!import requestsfrom bs4 import BeautifulSoupaimurl="http://www.biquge.com.tw/18_18998/"#爬虫目标网址url="http://www.biquge.com.tw"#hre...原创 2018-05-29 20:56:46 · 3492 阅读 · 2 评论 -
Python爬虫练习三:爬取豆瓣电影分类排行榜 - 动作片top10%(动态加载网页的抓取)
目标网址url: https://movie.douban.com/typerank?type_name=%E5%8A%A8%E4%BD%9C&type=5&interval_id=100:90&action= 使用谷歌浏览器的检查功能对网站进行分析,发现需要爬取的内容在class‘movie-list-item playable unwatched’下...原创 2018-05-30 19:54:55 · 8694 阅读 · 3 评论 -
Python爬虫练习五:爬取 2017年统计用区划代码和城乡划分代码(附代码与全部数据)
本文仅供学习,需要数据的文末有链接下载,请不要重复爬取。 最近工作中,因为统计用区划代码和城乡划分代码更新了最新的2017版,需要爬取最新的数据。于是乎,本次花了一定精力,将整个2017版数据完完整整的爬了下来。相较于第一次爬虫练习的2016版,本次改进很多,主要特点如下。 1、通过尝试爬取目标网址,发现相较于以往,竟然设置了反爬虫手段,在进行get请求的时候需要增加header...原创 2018-08-01 22:29:30 · 5153 阅读 · 6 评论 -
python爬虫练习五(补充): 2018年统计用区划代码和城乡划分代码(附代码与全部数据)
之前爬取过2017年的数据 详见Python爬虫练习五:爬取 2017年统计用区划代码和城乡划分代码(附代码与全部数据),下面有评论说广东省的数据缺少了东莞与中山两个市的数据,检查网页结构发现确实是代码没考虑到,这两个市没有区级,直接到街道、办事处级了。考虑到代码的复用性、以及唯独此两个市的特殊性,(其实是懒),在源码不变的情况下,添加以下代码处理此两市的数据。在Spiders.py ...原创 2019-03-19 16:26:03 · 1207 阅读 · 3 评论 -
Python爬虫:验证码识别
有段日子没写博客了,工作略忙~(这是借口)回归正题,验证码是爬虫永远绕不过去的坎。无论你是常规爬取还是用selenium+无头浏览器进行用户的登陆操作,都需要识别验证码。为了搞验证码,搞得对图像也有了初步的了解,不废话说结论。安装:环境:win10,anaconda3 ,python3.61、开源OCR tesseract 下载网址https://digi.bib.uni-ma...原创 2019-03-13 20:41:14 · 425 阅读 · 0 评论