python爬虫实战
文章平均质量分 76
MinorW
秃头
展开
-
【python_9】爬取斗图吧无限制下载表情图
爬取链接:http://www.doutula.com/photo/list/?page=1首先F12查看该链接,对比可以看到,没有任何加密,可以解析图片链接,然后下载;不过要仔细看,有个小坑:图片有两张,未加载成功显示是白色的图片,加载成功后显示才是正确的;未加载成功前的网页:加载成功后:查看标签页:每个a标签对应一张图片右键查看源代...原创 2019-10-16 23:50:11 · 416 阅读 · 3 评论 -
【Python爬虫_1】爬取巴比特社区前5页列表和内容;
import requestsfrom bs4 import BeautifulSoupimport jsonimport time"""需求:爬取巴比特论坛的前5页title和内容"""class BtcSpider(object): def __init__(self): self.url = "https://bbs.8btc.com/forum-61...原创 2019-02-27 23:51:46 · 789 阅读 · 0 评论 -
【Python爬虫_2】爬取国外编程书www.allitebooks.com的内容及使用(xpath和bs4解析数据);
import requestsfrom lxml import etreefrom bs4 import BeautifulSoupimport json"""爬取需求:爬取编程电子书http://www.allitebooks.com/的书信息,包括书名、书的作者、书的简介、书的图片四个;解析数据使用bs4和xpath两种方式解析;"""class BookSpider(o...原创 2019-03-01 02:12:49 · 603 阅读 · 0 评论 -
【Python爬虫_3】爬取国外编程书www.allitebooks.com的内容及保存到MongoDB并导出;
import requestsfrom lxml import etreeimport pymongoimport time ''' 将爬取到的书保存到mongodb中,并导出文件(只爬取前9行,即90本书的信息)'''class BookSpider(object): def __init__(self): self.base_url = 'http:/...原创 2019-03-12 02:38:21 · 322 阅读 · 0 评论 -
【Python爬虫_4】爬取豆瓣图书Top250;
import requestsfrom lxml import etreeimport jsonimport pprintimport timeclass DoubanBook(object): def __init__(self): self.url = 'https://book.douban.com/top250?start={}' se...原创 2019-04-01 01:46:15 · 587 阅读 · 0 评论 -
【Python爬虫_7】爬取免费代理IP并验证是否可用(西刺代理)
import requestsfrom lxml import etreeimport pymysql'''爬取西刺代理ip和port,然后验证该ip是否可用'''header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chr...原创 2019-05-09 22:52:41 · 775 阅读 · 1 评论 -
【Python爬虫_8】爬取必应图片
"'需求:爬取必应的图片,并下载,以老师为例;'"1.首先通过XHR找到图片的url地址,打开该地址可看到确认链接找到正确,然后多找几个来分析,可以得到通用的url:url = 'https://cn.bing.com/images/async?q='+ '必应输入框内需要搜索的名字'+'&first='+'页数'+'&count=35&rel...原创 2019-05-12 23:33:22 · 4931 阅读 · 1 评论