- 博客(2)
- 资源 (1)
- 收藏
- 关注
原创 python爬虫1
学习使用requests模块进行爬虫 最简单的一句 import requests html = requests.get(url) print html.text 就可以得到源代码 有时候为了模仿浏览器行为进行对反扒进行反制,需要伪装头: import requests html = requests.get(url,headers = headers) pri
2017-04-26 21:38:37 260
原创 python正则表达式
最近学爬虫,需要先学习正则表达式 .号,匹配任意字符,换行符\n除外 *号,匹配前一个字符0次至无限次 ?号,匹配前一个字符0次或者1次 .*号,贪心算法,匹配尽可能多(长)的,得到满足条件最长的 .*?号,飞贪心算法,匹配尽可能少,得到满足条件最短的 ()号,内部作为返回数据 \d, 匹配纯数字 重要,常用,一定要记住:(.*?) 注意,一个字符串的正则输出结果
2017-04-26 19:46:35 238
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人