
爬虫
文章平均质量分 53
zxfBdd
这个作者很懒,什么都没留下…
展开
-
解决Android通过chrome://inspect/调试WebView出现 HTTP/1.1 404 Not Found 的问题
解决Android通过chrome://inspect/调试WebView出现 HTTP/1.1 404 Not Found 的问题转载 2022-10-30 00:18:16 · 4581 阅读 · 2 评论 -
js ajax设置和获取自定义header信息的方法总结
目录1、js ajax 设置自定义header 1.1 方法一: 1.2 方法二: 2、js ajax 获取请求返回的response的header信息 3、js ajax 跨域请求的情况下获取自定义的header信息1、js ajax 设置自定义header回到顶部1.1 方法一:$.ajax({ type: "POST", url: "Handler1.ashx", contentType: "application/x-www-f...转载 2022-01-03 00:10:10 · 11313 阅读 · 0 评论 -
js通过点击实现文件下载
一般情况下通过a标签可以实现下载效果,比如一般的文件类的,但是如果是图片则大部分的浏览器都会跳转的一个页面进行显示图片,而不是下载。下面我们来介绍一个通用的文件下载方法。html部分代码<button onclick="download('img/12.jpg')">点击下载</button>js部分代码function download(src) { var $a = document.createElement('a'); $a.setAt..转载 2022-01-02 01:44:12 · 5004 阅读 · 0 评论 -
怎么用js通过文件的url下载文件到本地
<!DOCTYPE html><html><head> <meta charset="utf-8"> <title></title></head><body> <a href="/download/papers/abc.doc">点击链接下载</a> <button onclick="download1()">点击按钮下载</bu.转载 2022-01-02 01:42:44 · 997 阅读 · 0 评论 -
js通过URL下载服务器文件(可行方法)
本文讲述已知文件在服务器的地址,如何下载至本地其他博客分享的一般是这两种1.通过window.openwindow.open('https://1.1.1.1/test.txt')2.通过get表单请求var $form = $('<form method="GET"></form>')$form.attr('action', 'http://1.1.1.1/test.txt')$form.appendTo($('body'))$form.submit(...转载 2022-01-02 01:40:54 · 1984 阅读 · 0 评论 -
js通过 URL下载文件
页面上一个button,点击之后触发一个function去请求数据,返回 pdf/epub 的URL,然后下载这个文件.本来是直接用 a 写的,href里放资源地址,target设为'_blank'效果良好.但这样所有的资源都会直接暴露而且不方便统计,所以就换用上面的方式. js构造a标签,js触发click.不加_blank是可以的,但会替换掉原来整个页面.加了_blank chrome就拦截,Safari无效果. 用iframe,src填入资源地址. 但这样Safari无效果. ..转载 2022-01-02 01:39:42 · 3046 阅读 · 0 评论 -
js通过URL下载文件
var url// 会打开一个空白页下载,然后空白页消失,用户体验不好 function download1() { window.open(url); }// 直接下载,用户体验好 function download2() { var $form = $('<form method="GET"></form>'); $form.attr('action',...转载 2022-01-02 01:38:23 · 776 阅读 · 0 评论 -
纯js前端通过url地址,下载文件保存到本地
纯js前端通过url地址,下载文件保存到本地将url通过XMLHttpRequest请求拿到二进制文件流,转blob对象下载到本地一、下载含有url的文件二、保存到本地并自动点击三、将文件下载四、案例window.open打开文件资源路径保存文件使用javascript保存文件区分blob格式和文本格式总结将url通过XMLHttpRequest请求拿到二进制文件流,转blob对象下载到本地一、下载含有url的文件代码如下(示例):// 下载含有url的文件function .转载 2022-01-02 01:37:09 · 8718 阅读 · 0 评论 -
JS 下载指定网址URL资源(文件,图片)
/** * 获取 blob * @param {String} url 目标文件地址 * @return {Promise} */function getBlob(url) { return new Promise(resolve => { const xhr = new XMLHttpRequest(); xhr.open('GET', url, true); xhr.setRequestHeader('Access-...转载 2022-01-02 01:35:03 · 1450 阅读 · 0 评论 -
header中Content-Disposition的作用与使用方法
订阅专栏Content-disposition 是 MIME 协议的扩展,MIME 协议指示 MIME 用户代理如何显示附加的文件。Content-disposition其实可以控制用户请求所得的内容存为一个文件的时候提供一个默认的文件名,文件直接在浏览器上显示或者在访问时弹出文件下载对话框。格式说明:content-disposition = "Content-Disposition" ":" disposition-type *( ";" disposition-parm ) 字段说明:Co...转载 2022-01-02 01:30:14 · 1914 阅读 · 0 评论 -
Python爬虫突破封禁的6种常见方法
在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”,有时会把网络数据采集程序称为网络机器人(bots)。最常用的方法是写一个自动化程序向网络服务器请求数据(通常是用 HTML 表单或其他网页文件),然后对数据进行解析,提取需要的信息。本文假定读者已经了解如何用代码来抓取一个远程的 URL,并具备表单如何提交及 JavaScript 在浏览器如何运行的机制。想更多了解网络数据采集基础知识,可以参考文后的资料。在采集网站的时会遇..转载 2021-12-18 21:46:36 · 5153 阅读 · 0 评论 -
Scrapy中如何向Spider传入参数
目录方式一方式二settings.pyrun.pypipelines.py启动示例在使用Scrapy爬取数据时,有时会碰到需要根据传递给Spider的参数来决定爬取哪些Url或者爬取哪些页的情况。例如,百度贴吧的放置奇兵吧的地址如下,其中 kw参数用来指定贴吧名称、pn参数用来对帖子进行翻页。https://tieba.baidu.com/f?kw=放置奇兵&...转载 2020-01-13 17:54:46 · 584 阅读 · 1 评论 -
scrapy多url爬取
一、单页面爬取创建项目 scrapy startproject qiubaiByPages 创建spider文件 scrapy genspider qiubai www.qiushibaike.com/text 编写数据存储膜拜itemsclass QiubaibypagesItem(scrapy.Item): # define the fields fo...转载 2019-12-12 21:06:58 · 2275 阅读 · 0 评论 -
python3.x设置默认编码(sys.stdout.encoding和sys.defaultencoding)
查了一会资料得出的结论是如果你用的是python3.x,那么就最好别去设置sys.defaultencoding或者sys.stdout.encoding记住在需要编码的时候用encode,解码的时候decode就可以了。。。这个问题貌似很复杂首先区分一下sys.stdout.encoding和sys.defaultencodingsys.defaultencodingsys....转载 2019-12-12 21:05:11 · 7082 阅读 · 0 评论 -
python爬虫:scrapy框架xpath和css选择器语法
Xpath基本语法一、常用的路径表达式:表达式 描述 实例 nodename 选取nodename节点的所有子节点 //div / 从根节点选取 /div // 选取所有的节点,不考虑他们的位置 //div . 选取当前节点 ./div .. 选取当前节点的父节点 .. @ 选取属性...转载 2019-12-12 19:16:13 · 221 阅读 · 0 评论 -
Chrome内验证xpath正确性
验证xpath也是类似的。语法是$x(“your_xpath_selector”)。注意:语法中括号里需要通过双引号括起来,如果xpath语句中有双引号,要改成单引号,不然只能解析到第一对双引号的内容...转载 2019-12-12 18:54:01 · 650 阅读 · 0 评论 -
Pycharm中运行Scrapy的步骤与配置
刚开始安装完Scrapy,但是目前使用Pycharm,第一次使用这个框架,却不知道怎么运行,查了点文章,记录下。打开项目,在和scrapy.cfg文件同级目录中创建一个名为main.py文件,文件名可随意,文件里面写上两行内容。from scrapy import cmdlinecmdline.execute("scrapy crawl books -o books.csv".s...转载 2019-12-12 18:18:16 · 1160 阅读 · 0 评论 -
ModuleNotFoundError: No module named 'PIL'
from PIL import ImageModuleNotFoundError: No module named 'PIL'解决方法: 运行命令:pip install pillow如果运行该命令 显示Requirement already satisfied: Pillow in c:\program files (x86)\python\li...原创 2019-12-12 18:03:06 · 568 阅读 · 0 评论 -
scrapy爬取数据的基本流程及url地址拼接
说明:初学者,整理后方便能及时完善,冗余之处请多提建议,感谢!了解内容:Scrapy :抓取数据的爬虫框架异步与非阻塞的区别异步:指的是整个过程,中间如果是非阻塞的,那就是异步过程;非阻塞:关注拿到结果之前的状态 (如果拿到结果前在等待,是阻塞,反之,是非阻塞)理解:Scrapy 基本工作流程(简单--->复杂) ...转载 2019-12-12 17:29:05 · 1322 阅读 · 0 评论 -
python bs4解析网页时 bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: l
Python小白,学习时候用到bs4解析网站,报错bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library?1几经周折才知道是bs4调用了python自带的html解析器,我用的ma...转载 2019-12-12 15:36:22 · 201 阅读 · 0 评论 -
Python爬虫实战--(二)解析网页中的元素
使用requests发送请求 自己写selector 根据属性值筛选指定内容 一对多关系的筛选 爬取分页 模拟手机端访问来抓取图片 总结上一篇我们解析了本地的网页,而这一篇我们去解析真实的网络环境中的网页。目标:用Request + Beautifulsoup库爬取Tripadvisor网站的内容。Tripadvisor的网址:https://www.tripad...转载 2019-12-12 15:00:05 · 454 阅读 · 0 评论