爬虫
YUE.YUN
这个作者很懒,什么都没留下…
展开
-
python爬虫的一些高级应用小技巧
该博文会持续更新session()session.headers.update()#注意,小括号中是字典的形式urlencode()、urldecode()、quote()urlencode函数,可以把key-value这样的键值对转换成我们想要的格式,返回的是a=1&b=2这样的字符串,比如:import urllib.parsevalues={}values[‘username’]=‘01张三’values[‘password’]=‘df123?’url=“http://ww原创 2020-12-25 15:45:11 · 282 阅读 · 0 评论 -
爬虫如何解决cookie过时的问题
在爬虫的过程中,会面临cookie失效的问题,当然不能每次手动去复制粘贴,所以就需要自动解决cookie可能还会遇到反重的手段,进行了js加密,该如何处理https://www.bilibili.com/video/BV1y4411w7DX?p=13中13节,实现66ip网站的爬取。...原创 2020-12-23 18:45:37 · 2459 阅读 · 1 评论 -
爬虫项目①
代理池的一个应用流程:爬虫模块:采集代理IP·从代理IP网站上采集代理IP·进行校验(获取代理响应速度,协议类型,匿名类型),·把可用代理IP存储到数据库中代理IP的校验模块:获取指定代理的响应速度,支持的协议以及匿名程度·原因:网站上所标注的响应速度,协议类型和匿名类型是不准确的·这里使用httpbin.org进行检测数据库模块:实现对代理IP的增删改查操作·这里使用MongoDB来存储代理IP检测模块:定时的对代理池中代理进行检测,保证代理池中代理的可用性.·从数据库读取所有的代原创 2020-12-15 14:12:06 · 289 阅读 · 0 评论 -
反爬虫的项目总体构架图
反爬取的项目流程角度一:角度二:其中,角度一和角度二说的是同一件事情原创 2020-12-15 11:15:08 · 450 阅读 · 0 评论 -
Process finished with exit code 0
在Pycharm中运行爬虫,出现了上述这个问题,结合网上的方法都没有用(编译器、编译器)等等。你需要注意你的语句是否有格式上的错误:我的就是这样:开始我用的是前面一种,pycharm也没有标红,无论我怎么试用网上的方法都没有用。后来发现main前后似乎短了点,前后各补上一个下划线后再运行,问题解决...原创 2020-07-19 13:15:48 · 568 阅读 · 0 评论