反爬虫1

最新推荐文章于 2024-05-04 16:41:53 发布

warrah

最新推荐文章于 2024-05-04 16:41:53 发布

阅读量243

点赞数

分类专栏：岁月云——python 文章标签：反爬虫

本文链接：https://blog.csdn.net/warrah/article/details/80594936

版权

岁月云——python 专栏收录该内容

66 篇文章 0 订阅

订阅专栏

我是爬虫初学者，在爬虫中遇到的问题积累下来，总有些网站请求做了一些反爬虫的技术。思考一下，可以应用到自己的网站里面种。
使用fiddler抓包，我是按照下图过滤了一些信息.
REGEX:\.(js|css|jpg|png|mp3|js\?.*|css?.*|jpg\?.*|png\?.*|mp3\?.*)$,将js、css、图片等隐藏掉，这些一般跟爬虫没太大关系，除非你爬取的就是图片或其他资源

当我打开页面的时候，看到了这些信息

查看页面，发现底部使用了
<script language="javascript" type="text/javascript" src="/xxx_start.php"></script>
了解 HTML

    def __init__(self):
        self.driver = webdriver.PhantomJS()

    def start_requests(self):
        url = 'http://www.xxxx.cn/'
        self.driver.get(url)
        self.sid = self.driver.get_cookie('SESSID')['value']
        self.driver.close()
        return super(xxxSpider,self).start_requests()

    '''
    通过selenium与PhantomJS，模拟浏览器访问
    获取cookie-SESSID的值
    '''
    def make_request_from_data(self, data):
        return self.self_make_request_api(self.sid,data)