爬虫
文章平均质量分 54
楼兰0x23
happy coding !!
展开
-
Python3爬虫下载pdf(二)
Python3爬虫下载pdf(二)最近在学习python的爬虫,并且玩的不亦说乎,因此写个博客,记录并分享一下。需下载下载以下模块 - bs4模块 - requests模块一、源码from concurrent.futures import ThreadPoolExecutorimport requests,argparse,re,osfrom bs4 import BeautifulSo原创 2017-08-23 22:51:35 · 751 阅读 · 0 评论 -
Python3爬虫下载pdf(一)
Python3爬虫下载pdf(一)最近在学习python的爬虫,并且玩的不亦说乎,因此写个博客,记录并分享一下。需下载以下模块bs4 模块 requests 模块一、源码"""功能:下载指定url内的所有的pdf语法:将含有pdf的url放到脚本后面执行就可以了"""from bs4 import BeautifulSoup as Soupimport requestsfrom sy原创 2017-08-23 22:01:59 · 1458 阅读 · 0 评论 -
python爬虫之快速构造标准格式headers
0x01 源码a = '''Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8Accept-Encoding:gzip, deflateAccept-Language:zh-CN,zh;q=0.8Cache-Control:max-age=0Connecti原创 2017-09-20 23:16:37 · 5287 阅读 · 3 评论 -
python_BeautifulSoup库之遍历文档树
组别 名称 作用 输出 备注 第一组 contents 获得当前tag的所有子节点 list 注意当前是一个tag对象 - children 获得当前tag的所有子节点 list_iterator 注意当前是一个tag对象 - descendants 获得当前tag的所有子孙节点 generator 子孙节点同样返回 第二原创 2017-10-28 23:02:11 · 1608 阅读 · 0 评论