python
主要爬虫相关
Re_Dreamer
无形的混沌
展开
-
爬虫简单程序(豆瓣top)
import requests as r import re header = { # 伪装为ie浏览器 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36 Edg/95.0.1020.44' } url="https://movie.douban.com/top250" resp.原创 2021-11-24 21:51:38 · 281 阅读 · 0 评论 -
python中re模块常用内容
预加载数据 import re #预加载正则表达式 obj=re.compile(r"\d+") findall函数 # findall匹配字符串中所有符合正则的数据(返回列表) rps = obj.findall( " 违法 2321 窝的 64454") print(rps) finditer函数 # finditer匹配字符串中所有符合正则的数据(返回迭代器) psr = obj.finditer( " 违法 2321 窝的 64454") for i in psr: # 获原创 2021-11-24 20:33:29 · 542 阅读 · 0 评论 -
简单爬虫程序--百度翻译
import requests as r import json header = { # 伪装为ie浏览器 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36 Edg/95.0.1020.44' } # url地址 url='https://fanyi.baidu.com/sug' w.原创 2021-11-24 19:33:48 · 459 阅读 · 0 评论 -
爬虫案例——简易网页采集器
import requests import json header = { # 伪装为ie浏览器 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36 Edg/95.0.1020.44' } # 网址数据 url='https://www.sogou.com/web?' # 字典--处理.原创 2021-11-19 20:01:39 · 493 阅读 · 0 评论