2020年02月_粥ou

原创 fiddler 抓包工具

直接在软件管理里下载fiddler就Ok 了 fiddler 1，配置 tools==>options==>https 选中：capture https decrypt https trafic ignor xxx 点击右边的action,信任根证书配置完毕，关闭重启 2，<>：html内容一个本子加一个→：pos...

2020-02-13 23:11:39 90

原创正则表达式详解实用-深入

import re ''' 字符串切割 ''' str1 = "tom is a good man" print(re.split(r' +',str1))#至少一个空格作为切割 ''' re.finditer函数与findall类似，扫描整个字符串，返回的是一个迭代器next()返回一个对象 ''' str2 = "tom is a good man! t...

2020-02-13 23:08:54 98

原创正则表达式详解实用-基础

import re ''' re.match(pattern，string，flags=0) pattern：子串 string:父串 flags:标志位,用于控制正则表达式的匹配方式，值如下 re.I 忽略大小写 re.M 多行匹配，影响^和$ re.S 是.匹配包括换行符再内的所有字符功能：尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，返...

2020-02-13 23:08:04 80

原创正则表达式详解实用-元字符

import re r''' 匹配单个字符与数字 . 匹配除换行符以外的任意字符 [0-9] []字符集合，表示匹配[]所包含的任意一个字符 [0-9a-zA-Z_] 匹配字母数字下划线 [^To] 匹配除了To这两个字母外的所有字符 ^在[]里为脱字符表示不匹配集合中的字符 \d 匹配数字，效果同[0-9] \D 匹配非数字字符 \w 匹配数字字母下划...

2020-02-13 23:07:03 115

原创关于爬虫的Error：URLError，HTTPError

作者学的课程：https://www.bilibili.com/video/av33963847 import urllib.request import urllib.parse import urllib.error ''' URLError: 1.没有网 2.服务器连接失败 3.找不到指定的服务器 HTTPError：是URLError的子类 ''' url = 'htt...

2020-02-13 23:05:07 283

原创 ajax 爬取豆瓣(get)，肯德基(post)，贴吧(复杂的get)

已分类好，大家可放心调用代码，虽然很简单，但是理解原理就好了作者看的课程：https://www.bilibili.com/video/av33963847 import urllib.request import urllib.parse import os ''' ajax get例子：豆瓣 url = 'https://movie.douban.com/j/chart/top_lis...

2020-02-13 23:03:09 108

原创 xpath用法（非常实用）和示例

安装 cmd 里 pip install lxml 导入 from lxml import etree 作者学爬虫的课：https://www.bilibili.com/video/av33963847，不是广告，老师讲的特别好 ''' 再x-path中，有3种主要类型的节点：元素，属性，文本常用的路径表达式： //:不考虑位置的查找 ./：从当前节点开始往下查找 ..:从当前节点的父节点...

2020-02-13 22:59:51 785

weixin_42166745的博客