2018年06月_silence cc

11月 10月 09月 08月 07月 06月 05月 04月 03月

原创使用python2爬取百度贴吧指定关键字和分页帖子楼主所发的图片

目的：在百度贴吧输入关键字和要查找的起始结束页，获取帖子里面楼主所发的图片思路：获取分页里面的帖子链接列表获取帖子里面楼主所发的图片链接列表保存图片到本地注意事项：问题：在谷歌浏览器使用xpath helper插件时有匹配结果，但在程序里面使用python内带的xpath匹配却为空的原因。原因：不同服务器会对不同的浏览器返回不同的数据，导致在谷歌浏览器看到的和服务器...

2018-06-27 11:10:31 2534

原创使用urllib2简单爬取并保存内涵吧内涵段子指定分页的的描述信息

对内涵8的内涵段子url 爬取每个分页上面显示的描述信息，按回车键继续对下一页进行爬取，输入quit退出爬取。思路：爬取每个页面的源码对源码进行处理（使用正则），获取指定信息保存信息# -*- coding:utf-8 -*-#!/usr/bin/env pythonimport urllib2import redef writepage(content,...

2018-06-22 16:01:12 2469

原创使用python2爬取有道翻译

爬虫的核心思想：模拟浏览器正常访问服务器，一般情况只要浏览器能访问的，都可以爬，如果被反爬，则考虑反复测试添加Request Header数据，知道可以爬取为止。反爬思路目前知道的有：User-Agent，Cookie，Referer，访问速度，验证码，用户登录及前端js代码验证等。本例遇到js验证 User-Agent Referer Cookie共计4种反爬机制。关键部分是，参数hea...

2018-06-17 17:35:27 2455

原创抓包工具Fiddler的下载、安装及对谷歌浏览器进行抓包使用

一 Fiddler的安装和配置打开工具Fiddler，在Tools选项里面点击options 配置完后，重启Fiddler二谷歌浏览器插件SwitchyOmega的安装使用 SwitchyOmega的github下载地址：https://github.com/FelisCatus/SwitchyOmega/releases 三使用Fiddler对谷歌浏...

2018-06-14 20:03:49 13565 1