![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 66
瓜而不皮
没想到吧,我又回来啦 有问题可以联系wx weirdpig
展开
-
xpath解析网页中tbody问题
在爬取网页中表格数据时使用xpath解析会出现的问题原创 2017-07-25 11:58:11 · 19420 阅读 · 14 评论 -
FireFox和Chrome浏览器Cookies存储路径记录(以便后续操作Cookies以实现某些鲜为人知的操作)
一、FireFox:在windows环境下Cookie数据位于:%APPDATA%\Mozilla\Firefox\Profiles\ 目录中的xxx.default目录,名为cookies.sqlite的文件,如C:\Users\nuym\AppData\Roaming\Mozilla\Firefox\Profiles\hsi4acx.default\cookies.sqlite...原创 2018-09-27 12:38:09 · 8583 阅读 · 1 评论 -
python使用threading.Timer实现线程循环任务定时器(一)
在进行爬虫系统开发的过程中遇到需要间隔一段时间就重复执行的任务的需求,就想实现一个线程服务在后台监控数据的抓取状态,要想实现定时循环任务的脚本可以使用linux下的crontab命令来执行,但是在一个项目里不太适用于使用这种办法,所以想启动一个线程来处理这类的小需求。在查找资料后发现可以使用 threading.Timer来实现这个代码如下:def func1(): print('Do som...原创 2018-07-13 15:19:09 · 63774 阅读 · 24 评论 -
HTTP协议中关于请求头参数的解释
part of Hypertext Transfer Protocol -- HTTP/1.1RFC 2616 Fielding, et al.14 Header Field Definitions This section defines the syntax and semantics of all standard HTTP/1.1 header fields. For entity...转载 2018-07-06 17:12:46 · 12539 阅读 · 0 评论 -
一分钟解决python3中的lxml库中没有etree模块的问题
在将以前写过的python2.7版本的代码迁移到python3.6版本的环境中遇到了lxml中没有etree模块的问题,经过查阅代码和资料发现使用pip安装的lxml库是最新版的,其中没有集成etree模块,我看了自己之前使用的lxml版本是3.7.2于是使用 pip install lxml==3.7.2试了一下,成功了。ps:我的机器环境是python3.6.6 anaconda,mac...原创 2018-07-06 16:20:13 · 13309 阅读 · 2 评论 -
xpath meta itemProp标签无法匹配到的问题
部分html代码如下'''<div class="QuestionPage" itemscope="" itemType="http://schema.org/Question"><meta itemProp="name" content="\u96fe\u973e\u771f\u7684\u89e3\u51b3\u4e0d\u4e86\u4e48\uff1f"/原创 2018-05-12 21:10:00 · 2045 阅读 · 0 评论 -
(You don't have permission to capture on that device) MAC Wireshark报错记录解决方案
看报错字面意思是权限问题,在网上找了资料解决了,记录一下解决方案首先打开CMD输入 whoami 命令查看当前用户名然后 cd /dev 进入/dev目录输入命令 ls -la | grep bp输入命令 sudo chown 你的用户名:admin bp*例如 sudo chown hello:admin bp*重启 wireshark完成...原创 2018-04-26 17:12:12 · 4904 阅读 · 0 评论 -
MAC下Charles的破解版
去官网下载Charles 官方下载地址 https://www.charlesproxy.com/download/安装后先打开Charles一次,然后退出然后替换 这个路径下的charles.jar 文件/Applications/Charles.app/Contents/Java/charles.jar这个文件百度找找不难找到我这里提供一个我自己用的4.2版的安装包和破解文件压缩包下载地址...原创 2018-04-20 17:33:13 · 2760 阅读 · 0 评论 -
selenium之python爬虫模拟浏览器系列:使用chrome或firefox的已存在的cookie访问网站(mac)
如果我们在抓取某个网站数据或者做自动化测试之前已经登陆过该网站,不想再进行相应的模拟登录操作即可直接访问该网站,那么我们可以通过selenium直接加载已经存在浏览器中的cookies来访问该网站,selenuim在启动浏览器时启动的是全新的不带cookies的浏览器窗口,那么我们需要进行一些操作来使浏览器加载cookies。基本操作可以看这篇博客selenium之python自动化测试系列:使用...原创 2018-04-02 16:26:49 · 1967 阅读 · 1 评论 -
python去除字符串中的‘\xa0’字符
最近在抓取网页过程中遇到了 字符串,在网页中表示空格,抓取下来由于编码原因变成了 \xa0字符,采用strip()和replace()方法均无法有效去除该字符串,经查阅资料与研究,得出以下的解决方案:>>>s='\u6b63\xa0\u5e38'>>>s="".join(s.split())>>>print s>>>正常原创 2018-01-08 12:33:12 · 5641 阅读 · 1 评论 -
Xpath contains 函数特殊用法总结
不了解 Xpath的contains函数的可以看下w3c官方文档 Xpath函数可以看出 contains函数表示意思是,第一个参数字符串包含第二个参数时,返回true实际用起来可能会有点差异(由于结合了路径表达式和属性)比如我们会有这么用tree.xpath('//div[contains(@class,"abc")]') #选取class属性包含字符串"abc"的节...原创 2019-08-02 19:33:49 · 2899 阅读 · 0 评论