一、相关资料
1、XPath 教程
2、Python爬虫教程(从入门到精通)
3、波晓张
4、jQuery 教程
5、抓包神器anyproxy
6、正则表达式
7、python 调用js的四种方式
二、Pycharm批量设置headers
Pycharm 打开路径: Edit->Find->Replace
或者 Ctrl + R
步骤如下:
Step 1: 输入替换内容
查找:
(.*?)\: (.*?)\n
替换:'$1':'$2',\n
Step 2: 选择正则,下图中.*
点亮
Step 3: 选择一个光标按钮,下图中in Selection
点亮
Step 4: 选中需要替换的内容, 点击Replace all
三、常用正则表达式匹配
# 匹配出公司名称
import re
line = "刚成立小米公司-雷军"
matchObj = re.match(r'刚成立(.*?公司)', line.strip(), re.M | re.S)
res = matchObj.group(1)
print(res)