爬虫
cp0328
自由空间是各向同性的
展开
-
爬虫实战练习
今天我们练习爬取一个网站,并且总结出相类似的网站的爬取模版我们以http://www.simm.cas.cn/xwzx/kydt/ 这样的网站为例,目标爬取此网站的news的标题,发布时间,文章链接,图片链接,以及来源我们主要用到requests,re,BeautifulSoup,json这些模块。直接上代码,有地方错误或者可以更改的地方 希望大家可以批评指正。#!/usr/bin/en...原创 2018-10-25 20:39:49 · 3358 阅读 · 2 评论 -
获取代理ip池
切换代理ip一直是我们在反反爬虫过程中常用的手段,但是目前各大ip代理网站的优质ip的价格都十分高昂,用于个人不太划算。好在有些网站提供免费的ip,经过测试,他们响应速度较为良好。如果我们将他们爬取下来并加以维护,足以满足我们个人的使用。国内主要的ip代理网站有:西刺免费代理ip,快代理免费代理,Proxy360代理,全网代理ip—————————————————————————————————...原创 2018-11-06 10:42:31 · 11435 阅读 · 2 评论 -
利用urllib处理get请求,post请求,ajex数据加载,cookie模拟登陆问题
1.GET请求示例分析以百度搜索为例http://www.baidu.com我们输入hello关键词进行查询,然后按回车键我们发现url变成https://www.baidu.com/s?wd=hello。我们可以发现对应的查询信息是通过url传递的,这里采用的请求方式就使用get请求来查询。那我们怎么用爬虫实现这一过程呢?我们可以利用urllib库来实现拼接下面是代码实现:import u...原创 2018-10-13 15:22:38 · 3976 阅读 · 0 评论