python爬虫学习
文章平均质量分 82
NGUP_LEE
毕业之后找到了一份还可以的工作,就是少了一些上学时学习的激情,上班就已经搞得自己精疲力尽,偶尔点开自己的博客,看到自己的学习笔记还可以帮助到不少的同学感到很开心。
加油,陌生人,如果你是为了挣钱,请努力,互联网不会辜负你,最重要的是你要考虑清楚自己的方向~
展开
-
scrapy settings文件中的各参数解释
settings文件时存放配置文件的,初始化的setings文件中,只有四个变量时默认定义好的,其他都是注释掉的。① BOT_NAME爬虫项目的名字,访问网站时,user-agent默认携带这个名字② SPIDER_MODULES 以及NEWSPIDER_MODULE是爬虫文件的路径③ ROBOTSTXT_OBEY是否遵循网站的爬取协议,当设置为 Fasle 时,就代表不遵守网站的协议,就是说协议中说明不能爬取的信息也要爬④ CONCURRENT_REQUESTS并发请求数,如果对方没有做反原创 2021-01-13 14:36:40 · 388 阅读 · 0 评论 -
反爬技术之“字体反爬”——入门篇
本项目的所有代码和相关文章, 仅用于经验技术交流分享,禁止将相关技术应用到不正当途径,因为滥用技术产生的风险与本人无关。字体反爬的背景字体反爬,也是一种常见的反爬技术,相信很多爬虫工作者都接触过,这其实不是一种常规的反爬手段,它其实是页面和前端字体文件想配合完成的一个反爬策略。最早使用字体反爬技术的有58同城、汽车之家等,发展到现在很多主流APP也使用了字体反爬技术和爬虫工作者进行对抗,字体反爬从一开始的单纯依靠一个写死的字体文件升级成现在最新动态的字体文件。而字体反爬的功课也有一个开始的解析字体.原创 2020-10-15 17:18:40 · 2223 阅读 · 1 评论 -
python检测代理IP能否使用
if __name__ == "__main__": url = 'http://api.shenlongip.com/ip?key=ke21guym&pattern=txt&count=5&protocol=1' #提取代理IP的网页 resp = requests.get(url=url) listed=resp.text.split("\r\n")#把这个网页当成text文件处理, 以'\r\n'分隔成列表 for ipp in listed[:原创 2020-10-02 16:51:57 · 475 阅读 · 0 评论