爬虫
shelleyHLX
这个作者很懒,什么都没留下…
展开
-
XPath Helper的安装
下载地址:https://huajiakeji.com/web-development/2018-01/892.html链接:https://pan.baidu.com/s/1BaefX8B80WkaxyjaVGPCGQ提取码:gcyu复制这段内容后打开百度网盘手机App,操作更方便哦--来自百度网盘超级会员V2的分享下载后,拖到360浏览器即可,谷歌安装不上。...原创 2020-11-04 09:12:33 · 312 阅读 · 0 评论 -
Python网络爬虫(selenium基本使用)
文章目录一、selenium简介二、环境安装三、简单使用/selenium测试四、创建浏览器对象(句柄)五、元素定位六、节点交互七、动作链八、执行JavaScript九、获取页面源码数据十、前进和后退十一、标签属性十二、窗口句柄切换十三、Cookie处理十四、异常处理十五、selenium规避被检测识别十七、项目实例(selenium药监局企业名称获取)十八、selenium模拟登录qq空间,爬取数据一、selenium简介selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决reque转载 2020-09-29 15:28:09 · 598 阅读 · 0 评论 -
爬虫常见的步骤
xpath的包含//div[contains(@class,‘i’)]实现爬虫的套路 准备url 准备start_url url地址规律不明显,总数不确定 通过代码提取下一页的url xpath 寻找url地址,部分参数在当前的响应中(比如,当前页码数和总的页码数在当前的响应中) 准备url_list 页码总数明确 url地址规律明显 发送请求,获取响应 添加随机的User-Agent,反反爬虫 添加随机的代理...转载 2020-09-29 14:27:15 · 182 阅读 · 0 评论 -
Python3之urllib库的使用总结
Urllib库是Python中的一个功能强大、用于操作URL,并在做爬虫的时候经常要用到的库。在Python2.x中,分为Urllib库和Urllib2库,Python3.x之后都合并到Urllib库中,使用方法稍有不同。本文介绍的是Python3中的urllib库。什么是Urllib库Urllib是Python提供的一个用于操作URL的模块,我们爬取网页的时候,经常需要用到这个库。升级合并后,模块中的包的位置变化的地方较多。在此,列举一些常见的位置变动,方便之前用Python2.x的朋友...转载 2020-09-28 16:15:18 · 438 阅读 · 0 评论 -
python3中的urllib.parse的常用方法
将URL按一定的格式进行拆分使用urllib.parse.urlparse将url分为6个部分,返回一个包含6个字符串项目的元组:协议、位置、路径、参数、查询、片段参照官方地址:https://docs.python.org/3/library/urllib.parse.htmlimport urllib.parse#urlparse将url分为6个部分url ="https://i.cnblogs.com/EditPosts.aspx?opt=1"url1 = "cheme://...转载 2020-09-28 14:44:58 · 621 阅读 · 0 评论 -
爬虫入门(12)——百度百科词条的爬虫
目录0.学习笔记来源1.抓取步骤2.如何确定抓取策略:3.百度百科相关词条信息4.启动模块-main.py5.URL 管理器-html_manager.py6.HTML 下载器-html_download.py7.Html 解析器-html_parser.py8.Html 输出器-html_outputer.py9.代码结构10.运行结果0.学习笔记来源https://www.imooc.com/video/106881.抓取步骤2.原创 2020-09-28 14:38:27 · 1941 阅读 · 0 评论 -
一分钟让程序支持队列和并发
工作了的开发同学想必都会给运营、产品等同事跑过数据。在豆瓣,基本每个工程师都在用DPark,原理就是把任务拆分,利用DPark集群,在多台服务器上同时运行这些任务可以快速的获得结果。但是有些需求不能使用DPark,比如有频繁的数据库操作,想象一下,一跑起来就会出现大量集群的进程连接数据库,让数据库压力骤增,甚至影响现有服务;有些需求用DPark有点杀鸡用了宰牛刀的感觉,占用了DPark集群资源,但是不用的话,跑一次任务就得几十分钟;如果酱厂外的同学也想这么爽,或者我们在没有DPark环境的地方(如本地)跑,转载 2020-09-27 14:22:15 · 166 阅读 · 0 评论 -
爬虫入门(11)——cnblog博客的文章内容爬取
文章目录1.前言2.页面分析3.结果4.多进程和多线程4.1.多线程实现4.2. 多进程实现5.reference1.前言根据页面链接:https://www.cnblogs.com/#p4修改p4为p1-200,都可以获得相应的页面的链接,但是,如果写代码也是这样写,就不行了,只会获得p1页面的各篇博客的链接。代码如下:# coding: utf-8# Author: shelley# 2020/9/21,9:57import requestsimport re# 会得到相同的ur原创 2020-09-27 14:11:33 · 713 阅读 · 0 评论 -
爬虫入门(9)——Bing美图爬虫
文章目录1.错误2.bing美图爬取2.1.网页分析2.2.获取图片的网址3.代码4. 结果1.错误python3 raise HTTPError(req.full_url, code, msg, hdrs, fp) urllib.error.HTTPError: HTTP Error 403: Forbid或是下载的图片打不开原因:headers未加,或是添加的内容少了,比如Referer2.bing美图爬取这是一个静态的网页,只需要获取图片的链接,就可以下载了。2.1.网页分析获取每个原创 2020-09-18 14:40:37 · 789 阅读 · 0 评论 -
fiddler 抓包详细教程
目录为什么要先学fiddler?抓firefox上https请求一、网页不安全二、fiddler设置三、导出证书四、导入到firefox浏览器1.打开右上角浏览器设置》选项》高级》证书》查看证书》证书机构》导入2.勾选文件导入3.打开文件后,会弹出个框,勾选三个选项就完成操作啦。证书导出失败问题前言一、证书无法导出1.在点Actions时候出现Export Failed:The root certificate could not be located.转载 2020-09-17 10:24:06 · 11702 阅读 · 1 评论 -
fiddler使用教程以及工作原理
一、Fiddler抓包工具简介Fiddler是位于客户端和服务器端的HTTP代理。Fiddler是目前最常用的http抓包工具之一。Fiddler是功能非常强大,是web调试的利器。二、Fiddler工作原理Fiddler原理图如下:Fiddler是一个代理服务器。代理地址:127.0.0.1,端口:8888。浏览器可以通过设置查看代理服务器:设置->高级->打开您计算机的代理设置->连接->局域网设置->代理服务器->在高级中就能看到代理转载 2020-09-17 09:50:49 · 249 阅读 · 0 评论 -
视频网站中video标签中的视频资源以blob:http呈现的探索
一、问题场景 想下载知乎视频资源,却发现视频链接是这个样子的blob:https://v.vzuu.com/b6146956-6e52-406d-8909-f3f1b81ae461当时一脸懵比啊~难道blob:https是什么牛逼的新协议?于是进行了一番探索二、探寻结论 结论就是blob:https并不是一种协议,而是html5中blob对象在赋给video标签后生成的一串标记,blob对象对象包含的数据,浏览器内部会解析;在web容器中的页面代码浏览器访问...转载 2020-09-17 09:44:11 · 4712 阅读 · 1 评论 -
爬虫入门(7)——bilibili的用户信息的爬取
文章目录1.jsonp2.网站的分析3.数据库的使用4.代码5.结果6.获取face的图片1.jsonpJSON和JSONP虽然只有一个字母的差别,但其实他们根本不是一回事儿:JSON是一种数据交换格式,而JSONP是一种依靠开发人员的聪明才智创造出的一种非官方跨域数据交互协议。jsonp是一种跨域通信的手段,它的原理其实很简单:首先是利用script标签的src属性来实现跨域通过将前端方法作为参数传递到服务器端,然后由服务器端注入参数之后再返回,实现服务器端向客户端通信由于使用script标原创 2020-09-16 11:01:44 · 2693 阅读 · 2 评论 -
爬虫入门(4)—— Selenium的使用
文章目录前面几节,我们学习了用 requests 构造页面请求来爬取静态网页中的信息以及通过 requests 构造 Ajax 请求直接获取返回的 JSON 信息。还记得前几节,我们在构造请求时会给请求加上浏览器 headers,目的就是为了让我们的请求模拟浏览器的行为,防止被网站的反爬虫策略限制。今天要介绍的 Selenium 是一款强大的工具,它可以控制我们的浏览器,这样一来程序的行为就和人类完全一样了。通过使用 Selenium 可以解决几个问题:页面内容是由 JavaScript 动态生成原创 2020-09-15 09:25:34 · 374 阅读 · 0 评论 -
爬虫入门(3)——拉钩网
文章目录1.lagou网1.1.获得cookie1.2.获取数据1.3.获取其他页面的数据1.4.不同城市2.代码2.1.获得cookie2.2.请求获得数据2.3.解析字典,获得特定数据2.4.获得多个页面的数据3.数据库的建立3.1.数据库服务的启动3.2.登录数据库3.3.创建数据库python_job,建立数据表python_jobs,插入数据的sql语句3.4.数据库出现的错误4.结果5.reference1.lagou网需要用到的技术:ajax请求,mysql,excel1.1.获得coo原创 2020-09-14 16:34:25 · 905 阅读 · 0 评论 -
爬虫入门(2)——第一视频
1. 网站分析要爬的网站:http://www.v1.cn/网站分析:获得每个视频的链接进入每个视频的链接,获得视频的标题:获得每个视频的链接,然后下载:2. 爬取视频# coding: utf-8# Author: shelley# 2020/7/1710:18import requestsimport osimport reimport urllib.requestfrom lxml import etree# 抓取网页def get_page(url):原创 2020-07-17 11:49:26 · 1460 阅读 · 0 评论 -
爬虫入门(1)--糗百
import requestsfrom bs4 import BeautifulSoup"""python3bs4.__version__: '4.5.1'"""def download_page(url): headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0"} r = requests.get(url, headers=原创 2020-07-07 20:30:17 · 483 阅读 · 0 评论 -
awesome-spider
awesome-spider收集各种爬虫 (默认爬虫语言为 python), 欢迎大家 提 pr 或 issue, 收集脚本见此项目 github-searchA暗网爬虫(Go) 爱丝APP图片爬虫BBilibili 用户 Bilibili 视频 Bilibili 小视频 Bing美图爬虫 B站760万视频信息爬虫 博客园(node.js) 百度百科(node.js...转载 2019-01-22 09:36:24 · 1391 阅读 · 0 评论 -
from requests_html import HTMLSession出现错误
错误:from requests_html import HTMLSessionFile "/usr/local/lib/python3.5/dist-packages/requests_html.py", line 419element=PyQuery(html)('html') or PyQuery(f'{html}')('html'),^SyntaxError: invalid ...原创 2018-12-11 13:38:00 · 5800 阅读 · 1 评论