spider
爬虫相关
清泉影月
清泉影月,取自“明月松间照,清泉石上流”
展开
-
gb2312编码导致爬虫解析乱码的问题
解决之道:gb2312编码导致的乱码,只需要做一个转码就可以了,一般我们转成utf8,转码如下:response = requests.get(url=url)response_code = response.text.encode('iso-8859-1').decode('gbk')即可完成把 response.text 转码为 utf8...原创 2020-03-03 10:38:19 · 575 阅读 · 0 评论 -
XPath 使用笔记
1.前言:工作需要使用scrapy,必然涉及到信息资源的定位,目前主流有两种,CSS和XPath,CSS在执行的时候还是会翻译成XPath语法,所以建议使用XPath来做信息资源定位。这是一个工作一段时间使用状况的总结博客,方便自己查阅,也为有需要的提供参考。博客主要内容:XPath基础、多个属性的选取、子父兄节点的选取、属性是否包含某值1.XPath基础跳过简介,直接说明和举例,尽量缩减...原创 2019-04-29 17:50:48 · 191 阅读 · 0 评论 -
xpath提取 html标签的文字内容
问题描述:做爬虫的过程中经常需要对html标签的文字内容进行提取,有几种情况1.提取属性的值,2.提取标签的值,3.提取段落的所有文字本文用的是 scrapy 的框架,用 response 解析html1.提取属性的值<a title="这是一个标题">response.xpath("//a/@title").get(),可以直接得到 title 的值为:这是一个标题...原创 2020-01-03 11:02:49 · 16292 阅读 · 0 评论 -
使用fiddler 爬取手机app资源
前言:网页抓包比较简单,一般浏览器按 F12 就可以分析请求过程,稍微麻烦点的借助抓包工具 wireshark 或者 fiddler 也没啥问题。其实app抓包核心就是在同一网络下通过代理查看app请求数据的过程。1.基本需求网络需求:抓包工具和手机要处在同一网络下,一般都是电脑和手机都连接同一 wifi,wifi 要求看可以访问网络手机需求:要求可以连接wifi,并可以手动设置代理2....原创 2020-01-08 13:56:03 · 615 阅读 · 0 评论