数据爬取
doudoudedi
My journey is the sea of star
展开
-
考研学校的爬虫(自己写的可能会有点菜
最近因为准备考研所以就把要考研的学校的招生简章给爬了下来开机启动我爬我怕我忘了最新的学校通告所以才写的首先确定目标~~url="你要的学校"然后这里我观察原创 2020-05-18 11:40:22 · 842 阅读 · 0 评论 -
requests模块总结
get先导入模块import requestsrep=requests.get(url)返回一个对象可调用的常用方法有rep.text//返回网页的字符串文本会有编码问题rep.content//返回访问的二进制文件常用于爬取图片等文件rep.encoding//返回页面的编码rep.status_code//返回页面的状态码rep.header//返回相应头字典的形式rep.ok//查看是否登入成功r.json//这里搞一篇文章单独讲url里面传递参数pararms={'id原创 2020-05-12 22:47:16 · 297 阅读 · 0 评论 -
爬取网页爆破目录的爬虫
今天被SCTF的高质量题目给打败了,好难萌新表示做不出来诶诶诶~~~~~所以分享一个自己写的shell可以爆破目录爬取爆破的信息import requestsimport ospath = "H:/dict" #这里上自己的字典files= os.listdir(path) for file in files: if not os.path.isdir(file): ...原创 2019-06-23 21:44:14 · 1423 阅读 · 2 评论 -
爬虫关于BeautifulSoup库
这几天挺累的~~就分享一些BeutifulSoup库的使用吧本人写爬虫时经常遇到一些编码问题所以就写这一篇beautifulSoup “美味的汤,绿色的浓汤”一个灵活又方便的网页解析库,处理高效,支持多种解析器。举一个列子(用别人的)from bs4 import BeautifulSouphtml = '''<html><head><title&g...原创 2019-06-27 22:43:26 · 170 阅读 · 0 评论