![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
西北乱跑娃
一个人执着于兴趣的时候,那必将创造卓越
展开
-
西北乱跑娃 -- python操作redis
Redis 是一种开源的、高性能的 key-value 存储系统。原创 2023-03-17 14:44:40 · 492 阅读 · 0 评论 -
西北乱跑娃 -- html header优化信息
html头信息原创 2022-07-04 17:28:45 · 297 阅读 · 0 评论 -
西北乱跑娃 --- python爬虫
有勇气的牛排官网:https://lgch.xyz/ 或 http://920z.net/兼职写代码赚米,可进官网查看,千人团队,实力合作,同多家淘宝等店铺合作,质量靠谱,当天结款。接单范围:python、java、各种网站设计、平面设计、Html、PS、Pr、大数据、hadoop、bottle、java web、spring等各种需求均可python爬虫python只匹配字符串中的中文以及数字和标点python下载全民k歌神库selenium设置不加载css、javascript和图片.原创 2021-07-10 15:55:34 · 201 阅读 · 0 评论 -
西北乱跑娃 --- 持续稳定的isbn接口
在网上找了很多isbn服务,信息都不是很全,于是自己专门写了一个接口,效果蛮不错。接着奏乐,接着舞。原创 2021-07-06 10:22:44 · 413 阅读 · 0 评论 -
西北乱跑娃 --- python正则匹配中文以及数字和标点
很多朋友在做爬虫和数据采集的时候会遇见字符中存在很多的特殊字符,影响数据的质量。今天给大家写一段代码用于数据清洗:info = ''str = '<@ba.rem>可以在下列状态和初始状态间切换:</>\n攻击范围<@ba.vdown>缩小</>,防御力<@ba.vup>+{0.35}</>,每秒恢复最大生命的<@b...原创 2020-02-09 14:25:54 · 4179 阅读 · 0 评论 -
西北乱跑娃 --- selenium设置不加载css、javascript和图片以及xpath
Chrome 的限制图片、javascript和cssfrom selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsoptions = webdriver.ChromeOptions()prefs = { 'profile.default_content_settin...原创 2020-01-13 21:20:16 · 6864 阅读 · 1 评论 -
西北乱跑娃 --- python furl库解析url参数
一、下载安装pip install furl二、使用from furl import furlf = furl('https://f1.yaseok.com/20181130/0eadc835f447c3369b0f588fe7f684a5/600x336.jpg')# 打印网址与路径paths = str(f.path)print(f.host)print(paths)...原创 2019-11-26 23:19:32 · 1533 阅读 · 0 评论 -
西北乱跑娃 --- python m3u8库
解析m3u8并提取url一、安装m3u8库pip install m3u8二、解析提取urlimport m3u8m3u8_obj = m3u8.load(r'C:\Users\Administrator\Desktop\anylise\hls-720p.m3u8')for seg in m3u8_obj.segments: print(seg.uri)m3u8.loa...原创 2020-02-18 13:37:01 · 9482 阅读 · 3 评论 -
西北乱跑娃 --- 解决运行pyspider报错
报错内容:$ pyspiderphantomjs fetcher running on port 25555c:\users\administrator\appdata\local\programs\python\python36\lib\site-packages\pyspider\libs\utils.py:196: FutureWarning: timeout is not suppo...原创 2019-10-09 16:32:12 · 1532 阅读 · 0 评论 -
西北乱跑娃 --- pyspider爬虫之HTTP 599: SSL certificate problem: unable to get local issuer certificate
想必大家在使用pyspider的时候会遇见Pyspider - HTTP 599: SSL certificate problem: unable to get local issuer certificate这样的报错,很多博客中都推荐以下代码设置:self.crawl(_self.url_, callback=self.index_page, validate_cert=False)...原创 2019-07-22 10:50:27 · 572 阅读 · 0 评论 -
西北乱跑娃 --- requests爬虫五大反反爬机制
提及爬虫相信大家都知道,今天为大家介绍五点解决反爬的机制。1、SSL证书验证错误错误:requests.exceptions.SSLError: ("bad handshake: Error([('SSL routines', 'tls_process_server_certificate', 'certificate verify failed')],)",)解决办法import ...原创 2019-07-30 16:24:01 · 4769 阅读 · 2 评论 -
西北乱跑娃 --- fiddler抓包手机无法访问网络设置
刚开始使用fiddler的时候,觉得fiddler抓手机APP特别好用。后来升级后导致手机无法正常访问网络,也就导致fiddler无法抓取到APP的json数据。所以就疯狂的查别人的博客,但是始终没有解决。网上提供了好几种参考方法,但是实际上来说没有作用。于是在自己的信息研磨下发现。发现这两个ip都可以使用,那个可以连接就用哪个。在fiddler中设置就按照一般模式走,然后再手机浏览器下载证书...原创 2019-07-15 18:14:06 · 2444 阅读 · 0 评论