网络爬虫
七訫
这个作者很懒,什么都没留下…
展开
-
应用于网络爬虫的HTTP和HTTPS概述
HTTP和HTTPS是什么,有什么区别http2222222222https2222原创 2019-06-21 17:30:21 · 247 阅读 · 0 评论 -
Requests网络爬虫简述
什么是网络爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,接收请求响应,是一种按照一定的规则,自动地抓取互联网信息的程序。 只要是浏览器能做的事情,原则上,爬虫都能够做爬虫的更多用...原创 2019-06-22 19:32:05 · 356 阅读 · 0 评论 -
使用PyCharm进行正则替换,将request headers转换为字典类型
问题描述使用网络爬虫伪造请求头的时候,经常要讲浏览器上的请求头复制下来使用,这样就会产生一个问题,将复制的请求头转换为实际能够使用的字典类型,实在是太繁琐了。解决方案我们可以借助Pycharm自带的正则替换的方式一键转换。新建一个文件,在文件中创建一个字典并将复制的request headers填入其中,这时候Pycharm会报错,请忽略!使用快捷键ctrl+R,调出替换框,选择Ra...原创 2019-06-26 12:41:31 · 2510 阅读 · 1 评论 -
最新版模拟登陆人人视频(电脑端与移动端)
分析需要POST提交哪些数据 很好,人人网并没有针对Form Data 进行加密处理,我们只需要发出一个的POST携带对应的Form Data信息即可 通过观察发现,Form Data提交的数据量远大于我们...原创 2019-07-01 02:06:00 · 976 阅读 · 0 评论 -
抓取百度翻译的接口(通过反编译js获取token、gtk、sign等签名信息)
废话少说直接上代码。pc版baidutranslator.pyimport requestsimport jsonimport reimport execjsclass BaiduTranslator: def __init__(self): self.trans_str = None self.trans_url = "https://f...原创 2019-06-27 12:47:39 · 3527 阅读 · 3 评论 -
使用requests爬取豆瓣电视
暴力点直接上代码爬取的过程中发现不涉及cookie和ipimport jsonimport requestsimport geventfrom gevent import monkeymonkey.patch_socket()class DoubanTVSpider: def __init__(self): self.base_url = "https:...原创 2019-06-28 15:40:18 · 436 阅读 · 0 评论 -
requests爬取图片(百思不得其姐)
最原始的方式以二进制写入文件保存图片import reimport osimport requestsclass BsbdqjSpider: def __init__(self): self.base_url = "http://www.budejie.com/" self.headers = { "User-Agent"...原创 2019-06-29 19:34:47 · 223 阅读 · 0 评论 -
selenium不再支持phantomjs;chrome、firefox推出无头浏览器模式
问题描述 好久没碰selenium了,今天重新试了试,发现driver = webdriver.PhantomJS()居然报错了!UserWarning: Selenium support for PhantomJS has been deprecated, please use headless ve...原创 2019-06-30 16:45:48 · 595 阅读 · 0 评论 -
爬取斗鱼直播的主播信息(requests与selenium两种方式)
使用selenium爬取斗鱼直播 以前一直知道find_elements_by_xpath速度很慢(需要加载整个文档),但是一直没有太深刻的印象,直到我写到这个爬虫,先定位父元素再循环定位里面的子元素使用xpath会报错(找不到目标元素)。from selenium import webdriver...原创 2019-07-01 02:05:41 · 1201 阅读 · 0 评论