爬虫
粥ou
这个作者很懒,什么都没留下…
展开
-
fiddler 抓包工具
直接在 软件管理里下载fiddler就Ok 了 fiddler 1,配置 tools==>options==>https 选中:capture https decrypt https trafic ignor xxx 点击右边的action,信任根证书 配置完毕,关闭重启 2,<>:html内容 一个本子加一个→:pos...原创 2020-02-13 23:11:39 · 85 阅读 · 0 评论 -
关于爬虫的Error:URLError,HTTPError
作者学的课程:https://www.bilibili.com/video/av33963847 import urllib.request import urllib.parse import urllib.error ''' URLError: 1.没有网 2.服务器连接失败 3.找不到指定的服务器 HTTPError: 是URLError的子类 ''' url = 'htt...原创 2020-02-13 23:05:07 · 270 阅读 · 0 评论 -
ajax 爬取豆瓣(get),肯德基(post),贴吧(复杂的get)
已分类好,大家可放心调用代码,虽然很简单,但是理解原理就好了 作者看的课程:https://www.bilibili.com/video/av33963847 import urllib.request import urllib.parse import os ''' ajax get例子:豆瓣 url = 'https://movie.douban.com/j/chart/top_lis...原创 2020-02-13 23:03:09 · 93 阅读 · 0 评论 -
xpath用法(非常实用)和示例
安装 cmd 里 pip install lxml 导入 from lxml import etree 作者学爬虫的课:https://www.bilibili.com/video/av33963847,不是广告,老师讲的特别好 ''' 再x-path中,有3种主要类型的节点:元素,属性,文本 常用的路径表达式: //:不考虑位置的查找 ./:从当前节点开始往下查找 ..:从当前节点的父节点...原创 2020-02-13 22:59:51 · 736 阅读 · 0 评论