爬取马蜂窝英国旅行攻略

Life is short The world is big。。。

没钱请无视上面这句话,我们还是老老实实看别人的攻略脑部脑补吧。。


-----

项目为抓取英国旅游的所有攻略,并且转成pdf保存到本地

------

需要安装wkhtmltopdf 这里提供64位版的地址 记得添加环境变量

有些问题我就不处理了你们自己看着办吧

import os
import re
import time
import logging
import pdfkit
import requests
from bs4 import BeautifulSoup
from PyPDF2 import PdfFileMerger
headers = { "Accept":"text/html,application/xhtml+xml,application/xml;",
            "Accept-Encoding":"gzip",
            "Accept-Language":"zh-CN,zh;q=0.8",
            "Referer":"http://www.example.com/",
            "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.90 Safari/537.36",
            'Accept': 'application/json, text/javascript'}



def search_html(href):
    return href and href.lower().startswith("/i/")

wo=0

pUrl="http://www.mafengwo.cn"

#一共有300页吧
for x in range(300):
    add="http://www.mafengwo.cn/yj/10122/1-0-"+str(x)+".html"
    r=requests.get(add,headers=headers)
    print(r)
    #获取每页list里的地址
    bs=BeautifulSoup(r.text,"html.parser")
    #找到以/i/开始
    list=bs.find_all(href =search_html)
    #输出正确的url
    for i in list:
        curURL = pUrl + i["href"]
        wo=wo+1
        pdf = pdfkit.from_url(curURL, "f:/uk/"+str(wo)+".pdf")

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值