- 博客(6)
- 资源 (3)
- 问答 (3)
- 收藏
- 关注
原创 使用python2爬取百度贴吧指定关键字和分页帖子楼主所发的图片
目的:在百度贴吧输入关键字和要查找的起始结束页,获取帖子里面楼主所发的图片思路:获取分页里面的帖子链接列表 获取帖子里面楼主所发的图片链接列表 保存图片到本地注意事项:问题:在谷歌浏览器使用xpath helper插件时有匹配结果,但在程序里面使用python内带的xpath匹配却为空的原因。原因:不同服务器会对不同的浏览器返回不同的数据,导致在谷歌浏览器看到的和服务器...
2018-06-27 11:10:31 2534
原创 使用urllib2简单爬取并保存内涵吧内涵段子指定分页的的描述信息
对内涵8的内涵段子url 爬取每个分页上面显示的描述信息,按回车键继续对下一页进行爬取,输入quit退出爬取。思路:爬取每个页面的源码 对源码进行处理(使用正则),获取指定信息 保存信息# -*- coding:utf-8 -*-#!/usr/bin/env pythonimport urllib2import redef writepage(content,...
2018-06-22 16:01:12 2469
原创 使用python2爬取有道翻译
爬虫的核心思想:模拟浏览器正常访问服务器,一般情况只要浏览器能访问的,都可以爬,如果被反爬,则考虑反复测试添加Request Header数据,知道可以爬取为止。反爬思路目前知道的有:User-Agent,Cookie,Referer,访问速度,验证码,用户登录及前端js代码验证等。本例遇到js验证 User-Agent Referer Cookie共计4种反爬机制。关键部分是,参数hea...
2018-06-17 17:35:27 2455
原创 抓包工具Fiddler的下载 、安装及对谷歌浏览器进行抓包使用
一 Fiddler的安装和配置 打开工具Fiddler,在Tools选项里面点击options 配置完后,重启Fiddler二 谷歌浏览器插件SwitchyOmega的安装使用 SwitchyOmega的github下载地址:https://github.com/FelisCatus/SwitchyOmega/releases 三 使用Fiddler对谷歌浏...
2018-06-14 20:03:49 13565 1
原创 django里面DTL使用for循环时,获取当前循环次数使用{{forloop.counter}}
django 模板语言共分四部分:变量 标签 注释 过滤器。 在标签里面使用for循环时,如何获取当前for循环次数,使用模板变量{{forloop.counter}}
2018-06-07 15:35:53 4802
原创 使用pycharm管理django项目时,关于导入另一个包里面文件的问题解决
问题:发现导入另外一个应用里面的文件报错,如下: 解决:把项目根目录daylifresh标记为SourceRoot 结果如下:不再报错
2018-06-01 01:44:21 5398 3
google-chrome-stable_current_amd64.deb
2018-04-16
python 爬虫怎么构造 提交的类型为 multipart/form-data 的数据
2018-06-27
使用xpath匹配的结果却为空?
2018-06-24
uwsgi安装后不能启动,日志报错如下,求原因
2018-05-18
TA创建的收藏夹 TA关注的收藏夹
TA关注的人